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很 多 学 科 都 面临 着 一 个 普遍 问题 : 如 何 存储 、 访 问 异 常 庞 大 的 数据 集 ， 并 用 模型 来 描述 和 
理解 它们 ? 这 些 问 题 使 得 人 们 对 数据 挖掘 技术 的 兴趣 不 断 增强 。 长 期 以 来 ， 很 多 相互 独立 的 不 
同学 科 分 别致 力 于 数据 挖掘 的 各 个 方面 。 本 书 把 信息 科学 、 计 算 科 学 和 统计 学 在 数据 挖掘 方面 
的 应 用 融合 在 一 起 ， 是 第 一 本 真正 的 跨 学 科教 材 。 


本 书 由 三 部 分 构成 。 第 一 部 分 是 基础 ， 介 绍 了 数据 挖掘 算法 及 其 应 用 所 依赖 的 基本 原理 。 
讨论 方法 直观 易 懂 ， 深 入 浅 出 。 第 二 部 分 是 数据 挖掘 算法 ， 系 统 讨 论 了 如 何 构建 求解 特定 问题 
的 不 同 算法 。 讨 论 的 内 容 包括 用 于 分 类 和 回归 的 树 及 规则 、 关 联 规则 、 信 念 网 络 、 传 统统 计 模 
型 ， 以 及 各 种 非 线性 模型 ， 比 如 神经 网 络 和 “基于 记忆 ”的 局 部 模型 。 第 三 部 分 介绍 了 如 何 应 
用 前 面 讨 论 的 算法 和 原理 来 解决 现实 世界 中 的 数据 挖掘 问题 。 谈 到 的 问题 包括 元 数据 的 作用 ， 
如 何 处 理 残缺 数据 ， 以 及 数据 预 处 理 。 
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控 质 就 是 针对 这 一 需求 而 发 展 起 米 的 一 门 汇集 统计 条、 机 器 党 习 、 数 据 库 、 人 工 智能 等 学 科 内 
容 的 新 兴 的 人 交 义 学 科 。 本 书 深入 探讨 数据 挖 斤 原 理 ， 把 信息 科学 、 计 算 科 学 和 统计 和 学 夺 数据 挖 
据 的 页 献 融合 在 一 起 ， 是 本 真正 的 跨 学 科教 材 。 

本 情 适 合计 算 机 专业 、 应 用 数学 专业 高 千 级 本 科 后 和 人 研究生， 以 及 狼 力 于 数据 挖 据 方 向 的 
钱 突 和 工作 人 员 等 疯 读 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭 更 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 让， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 | 

机 械 工 业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 始 ， 
华章 公司 就 将 工作 重点 放 在 了 避 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 扯 界 著 名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum，Stroustrup Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 瞻 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 酬劳 苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 迄 今 , “计算机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 针对 本 科 生 的 核心 课程 ， 剔 抉 外 版 苹 华 而 成 “国外 经 典 教 
材 ” 系 列 ; 对 影印 版 的 教材 ， 则 单独 开辟 出 “经 典 原版 书库 ”; 定位 在 高 级 教程 和 专业 参考 
的 “计算 机 科学 丛书 ”还 将 保持 原来 的 风格 ， 继 续 出 版 新 的 品种 。 为 了 保证 这 三 套 丛 书 的 权 
威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 们 服务 ， 华 章 公司 聘请 了 中 国 科 学 院 、 北 京 大 学 、 清 
华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科 技 大 学 、 
哈尔滨 工业 大 学 、 西 安 交通 大 学 、 中 国人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 出 
大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 北 工 学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重 
点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 的 著名 学 者 组 成 “专家 指导 委员 会 " ， 为 我 们 提供 选 题 
意见 和 出 版 监督 。 


“国外 经 典 教材 ”是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 本 科教 
学 度 身 订 造 的 。 在 广泛 地 征求 并 听取 丛书 的 “专家 指导 委员 会 ”的 意见 后 ， 我 们 最 终 选 定 了 
这 20 多 种 篇 幅 内 容 适 度 、 讲 解 鞠 导入 里 的 教材 ， 其 中 的 大 部 分 已 经 被 M.ILT. 、Stanford U.C. 
Berkley、C.M.U. 等 世界 名 牌 大 学 采用 。 从 书 不 仅 涵盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 
算 机 体系 结构 、 数 据 库 、 编 译 原理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国内 大 学 
计算 机 专业 普遍 开设 的 核心 课程 ,而且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历 三 十 
年 而 不 衰 、 有 的 已 被 全 世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 
者 必 将 在 计算 机 科学 的 宫殿 中 由 登 党 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzedu@hzbook.com 

联系 电话 : (010 ) 68995265 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 


网 络 和 存储 技术 的 迅猛 发 展 ， 使 数据 的 传播 和 积累 速度 不 断 提 高 ， 但 当 我 们 为 拥有 极其 
详尽 的 数据 而 欣喜 的 同时 ， 也 发 现 新 的 数据 处 理 和 提炼 技术 非常 匮乏 。 面 对 日 益 庞 大 的 数据 
资源 ， 人 们 迫切 需要 更 强 有 力 的 工具 来 “挖掘 ”其 中 有 用 的 信息 。 数 据 挖掘 就 是 针对 这 一 需 
求 而 发 展 起 来 的 一 门 新 兴学 科 。 

本 书 是 数据 挖掘 领域 的 三 位 专家 的 一 本 最 新 力作 。 全 书 共 14 章 ， 从 内 容 上 可 以 分 为 三 
大 部 分 。 第 一 部 分 是 基础 ， 介 绍 了 数据 挖掘 算法 及 其 应 用 所 依赖 的 基本 原理 。 第 二 部 分 是 数 
据 控 掘 算法 ， 系 统 讨论 了 如 何 构 建 求解 特定 问题 的 不 同 算法 。 第 三 部 分 介绍 了 如 何 应 用 前 面 
讨论 的 算法 和 原理 来 求解 现实 世界 中 的 数据 挖掘 问题 。 该 书 昌 然 出 版 时 间 不 长 ， 但 已 经 得 到 
很 多 好 评 ， 被 很 多 大 学 选 为 教材 。 该 书 的 特色 在 于 : 

第 一 ， 以 统计 学 家 的 视角 系统 解析 了 数据 挖掘 技术 所 依赖 的 统计 原理 。 因 为 数据 挖掘 所 
针对 的 是 不 完整 和 存在 “噪声 ”的 庞大 数据 集 ， 所 以 统计 学 中 的 概率 分 析 和 检验 技术 在 数据 
挖掘 中 有 着 极其 重要 的 作用 。 本 书 系统 讨论 了 各 种 数据 挖掘 算法 之 中 所 旨 含 的 统计 原理 ， 为 
读者 深入 学 习 葛 定 了 坚实 的 理论 基础 。 

第 二 ， 应 用 面向 组 件 的 思想 ， 把 数据 挖掘 算法 分 解 为 既 相互 联系 ， 又 相对 独立 的 几 大 组 
件 ， 即 模型 结构 、 评 分 函数 、 搜 索 方法 和 数据 管理 技术 。 这 样 便 可 以 把 成 熟 的 组 件 和 分 布 式 
处 理 技术 (如 COM, DCOM 和 CORBA 等 ) 应 用 到 数据 挖掘 领域 之 中 ， 把 各 种 数据 挖掘 算 
法 封装 为 灵活 的 组 件 ， 从 而 可 以 加 快 数据 挖掘 算法 的 开发 、 重 组 、 交 流 和 工程 化 、 商 业 化 速 
度 。 

第 三 ， 全 书 既 具 有 极 强 的 理论 性 ， 又 不 脱离 实践 。 既 深入 浅 出 地 讲授 了 很 多 非常 基本 的 
理论 ， 如 数据 、 测 量 、 概 率 分 布 、 统 计 检验 、 算 法 的 定义 和 复杂 度 等 ， 又 系统 全 面 地 介绍 了 
各 种 模型 〈 参 数 模型 、 非 参数 模型 和 混合 模型 )、 模 式 和 评分 函数 ， 同 时 ， 所 有 的 理论 介绍 
都 与 实践 应 用 保持 着 密切 的 关系 。 既 不 空 泛 ， 也 不 僵化 。 书 中 还 穿插 了 很 多 实例 和 图 形 ， 这 
进一步 增强 了 理论 的 说 服 力 。 

第 四 ， 内 容 精练 ， 分 析 独 到 。 数 据 挖掘 具有 典型 的 多 学 科 性 ， 涉 及 的 内 容 极其 广泛 。 本 
书 有 的 放 矢 ， 集 中 讨论 基本 的 理论 和 各 种 算法 中 所 蕴含 的 思想 精华 ， 可 谓 是 授 读者 以 “ 渔 ”。 
而 且 全 书 视角 新 颖 ， 分 析 独 到 ， 可 以 说 是 一 部 用 心 良 苦 的 作品 。 

根据 以 上 特征 ， 适 合 阅 读本 书 的 读者 包括 : 应 用 数学 、 计 算 机 科学 等 专业 高 年 级 本 科学 
生 和 研究 生 ， 致 力 于 数据 挖掘 方向 的 研究 和 工作 人 员 ， 对 数学 建 模 、 分 类 和 回归 算法 、 模 式 
识别 、 图 像 和 内 容 检索 等 感 兴趣 的 其 他 读者 。 

本 书 是 三 位 作者 多 年 研究 成 果 和 教学 实践 的 结晶 。David Hand 是 伦敦 帝国 大 学 数学 系 的 
统计 学 教授 和 消费 者 信誉 研究 组 (Consumer Credit Research Group) 的 主席 ， 他 是 统计 和 智 
能 计算 领域 的 一 位 资深 专家 ， 迄 今 已 发 表 了 大 量 著 作 ，2002 年 他 被 授予 英国 统计 学 会 银 质 
奖章 。Heikki Mannila 是 赫尔辛基 工业 大 学 计算 科学 与 工程 系 的 教授 、HHT (Helsinki Institute 
for Information Technology) 基础 研究 部 的 主任 、 诺 基 亚 研究 中 心 的 研究 员 。Padhraic Smyth 


Vil 


是 加 利 福 尼 亚 大 学 Iryine 分 校 信息 与 计算 科学 系 的 副教授 。 

这 个 译本 来 自 多 人 的 共同 努力 ， 参 加 本 书 翻译 的 有 张 银 奢 〈 第 1、2、8 一 14 章 及 附录 )、 
宋 俊 (第 3 章 )、 廖 丽 (第 5 HE). ARS (第 6 HE). TK. ASA (序言 和 第 7 章 ) 和 龙 欣 
(中 文 版 序 )， 全 书 由 张 银 奎 统 稿 和 审 校 。 另 外 ， 曾 华军 对 本 书 一 些 术语 的 详 法 提出 了 宝贵 
意见 ， 并 阅读 了 部 分 译 稿 ， 龙 晓 华 、 徐 峰 等 人 也 对 部 分 内 容 的 翻译 提出 了 很 多 宝贵 建议 。 翻 
译 一 本 书 绝 不 像 批评 一 本 书 译 得 不 好 那么 容易 ， 特 别 是 这 本 书 专 业 性 很 强 ， 我 们 的 水 平 也 很 
有 限 ， 因 此 ， 错 误 和 不 当 之 处 敬 请 各 位 读者 批评 指正 。 


译 者 
2002 4-12 A 15 8 


中 文 版 序言 〈《 附 原文 ) 


非常 高 兴 我 们 的 书 被 译 成 了 中 文 。 在 中 国 这 样 一 个 具有 世界 最 多 人 口 的 国家 发 展 分 析 庞 

大 数据 集 的 尖端 技术 是 再 合适 不 过 的 了 。 

张 银 村 先生 为 该 书 的 翻译 付出 了 很 多 劳动 ， 在 此 我 们 对 其 表示 真诚 的 谢意 。 尽 管 我 们 三 
人 都 不 懂 中 文 ， 但 从 他 在 翻译 该 书 过 程 中 向 我 们 询问 的 问题 中 可 以 看 出 ， 他 非常 好 地 理解 了 
我 们 想 表 达 的 内 容 ， 并 领会 了 我 们 写作 的 目标 。 而 且 ， 他 还 为 我 们 指出 了 第 一 版 中 的 一 些 打 
字 错 误 ， 所 以 他 的 翻译 工作 对 本 书 的 英文 再 版 也 起 到 了 改进 作用 。 

科学 是 没有 国界 的 ， 像 这 样 的 翻译 说 明 我 们 完全 可 以 进行 全 球 化 的 国际 性 合作 。 我 们 在 
写作 本 书 时 发 现 了 许多 乐趣 ， 希 望 中国 的 读者 在 阅读 本 书 时 能 够 找到 同样 多 的 乐趣 。 


We are delighted that our book has been translated into Chinese. Indeed, it is entirely 
appropriate that the country with the largest population on Earth should develop expertise in the 
analysis of huge datasets. 

We would like to express our appreciation to Raymond Yinkuizhang for the superb job he has 
done in translating the book. Although none of the three of us can read Chinese, we knew from the 
detailed questions he asked while translating the book that he had an excellent understanding of 
what we were trying to say and an appreciation of what we were trying to achieve in writing it. 
Indeed, he spotted several typographical errors in the first edition, so his translation will also lead to 
improvement of the second English edition. 

The scientific enterprise is international and translations such as this mean that we are able to 
contribute to a properly global international community. We hope our Chinese readers find as much 
enjoyment from reading the book as we found in writing it. 


David Hand 
Heikki Mannila 
Padhraic Smyth 
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我 们 把 从 庞大 的 数据 集 或 数据 库 中 提炼 有 用 信息 的 科学 称 为 数据 挖 气 。 它 汇集 了 统计 
学 、 机 器 学 习 、 数 据 库 、 模 式 识别 、 人 工 智 能 等 学 科 的 内 容 ， 是 一 门 新 兴 的 交叉 学 科 。 这 些 
学 科 都 致力 于 数据 分 析 的 某 一 个 方面 ， 因 此 它们 有 很 多 共性 一 一 但 是 每 一 学 科 又 有 其 儿 有 的 
特色 ， 分 别针 对 不 同 的 问题 和 求解 的 不 同方 式 。 

由 于 数据 挖掘 涵盖 了 计算 机 科学 和 统计 学 中 的 很 多 主题 ， 所 以 要 在 一 本 书 中 履 盖 所 有 的 
相关 材料 是 不 可 能 的 。 因 此 ， 我 们 把 焦点 集中 在 那些 我 们 认为 特别 重要 的 主题 上 。 

从 教学 的 角度 来 讲 ， 本 书 主要 适合 于 希望 学 习 数 据 挖掘 基本 原理 的 较 高 年 级 〈 最 后 一 年 ) 
大 学 生 ， 或 者 是 一 、 二 年 级 的 研究 生 ， 本 书 对 于 那些 旨 在 更 好 地 了 解数 据 挖掘 方法 和 技术 的 
研究 者 和 实践 者 也 是 有 价值 的 。 本 书 假 定 读者 已 经 熟悉 了 概率 论 、 微 积分 、 线 性 代数 和 优化 
等 学 科 中 的 基本 概念 一 一 也 就 是 说 ， 诸 如 工程 学 、 计 算 机 科学 、 数学 和 经 济 学 等 专业 的 大 学 
学 历 背 景 会 为 阅读 和 理解 本 书 提供 一 个 很 好 的 基础 。 

目前 ， 已 经 出 版 了 许多 关于 数据 挖掘 的 书籍 ， 但 其 中 大 多 数 都 是 直接 面向 商业 应 用 的 ， 
着 重 于 特定 的 方法 和 算法 〔 例 如 决策 树 分 类 )， 而 不 是 一 般 性 原理 (例如 参数 估计 和 计算 复 
杂 性 )。 这 些 书 对 于 一 般 了 解 和 实例 研究 是 很 有 价值 的 ， 但 对 于 课堂 教学 来 说 有 很 多 不 足 ， 
因为 底层 的 基本 原理 经 常 被 忽略 掉 了 。 也 有 一 些 数据 挖掘 方面 的 书 具 有 很 强 的 专业 性 ， 但 馆 
今 为 止 这 些 书 绝 大 部 分 是 从 计算 机 科学 的 角度 出 发 的 , 特别 是 从 数据 库 角度 (Han and Kamber, 
2000， 该 书 中 译本 《数据 挖掘 : 概念 与 技术 》 已 由 机 械 工业 出 版 社 出 版 . ) 或 从 机 器 学 习 的 
FARE (Witten and Franke, 2000， 该 书 中 译本 即将 由 机 械 工业 出 版 社 出 版 )。 

本 书 的 侧重 点 有 所 不 同 。 我 们 的 目标 是 分 析 数 据 挖 掘 的 最 基本 特征 。 我 们 没有 用 很 长 的 
篇 幅 来 讨论 特定 的 数据 挖掘 应 用 ， 比 如 协同 过 滤 (collaborative filtering) ©. (FAVE) (credit 
scoring) 以 及 欺诈 探查 fraud detection〉 等 ， 而 是 把 焦点 集中 在 这 些 应 用 所 依赖 的 基本 原理 
和 算法 上 。 但 这 并 不 是 说 本 书 忽 视 了 应 用 ， 因 为 从 根本 上 讲 数据 挖掘 就 是 一 门 应 用 性 学 科 。 
我 们 始终 记 着 这 一 点 ， 在 探讨 基本 理论 的 同时 ， 也 介绍 了 非常 多 的 可 以 运用 或 者 已 经 运用 
了 ) 该 理论 的 具体 应 用 和 研究 实例 。 

我 们 认为 ， 要 精通 数据 挖掘 既 需 要 理解 统计 学 又 要 理解 计算 科学 。 要 掌握 这 两 个 不 同 的 
专业 领域 ， 不 论 对 学 生还 是 对 老师 来 说 都 是 一 个 比较 大 的 挑战 。 对 于 一 般 的 计算 机 科学 家 来 
说 ， 统 计 学 著作 是 相当 难以 理解 的 : 元 长 而 枯燥 的 专业 术语 、 隐 含 的 假定 、 渐 近 性 的 证 明 ， 
而 且 缺 乏 这些 理 论 和 数学 概念 究竟 是 如 何在 实际 数据 分 析 算 法 中 真正 实现 的 细节 。 对 统计 学 
家 来 说 情况 恰好 相反 : 关于 机 器 学 习 和 数据 挖掘 的 计算 机 科学 文献 中 充满 了 对 算法 、 伪 代码 、 
计算 效率 等 的 讨论 ， 但 往往 却 很 少 提 到 潜在 的 模型 或 推理 过 程 。 尽 管 如 此 ， 这 两 个 学 科 对 于 
处 理 庞大 数据 集 来 说 都 是 至 关 重 要 的 。 既 可 以 从 “数学 模型 ”角度 ， 又 可 以 从 “计算 算法 ” 
角度 理解 数据 挖掘 是 正确 把 握 其 复杂 性 的 关键 。 


O 译注 : 简单 来 说 就 是 对 有 相同 购物 历史 的 顾客 提供 交叉 推荐 服务 。 


在 本 书 中 ， 我 们 试图 架 起 一 座 沟通 这 两 个 世界 的 桥 粱 ， 目 的 是 把 统计 建 模 的 思想 和 “ 现 
实 世界 ”中 的 实际 计算 方法 和 算法 联系 起 来 。 

本 着 这 一 宗旨 ， 我 们 以 一 种 有 些 与 众 不 同 的 方式 组 织 了 本 书 的 结构 。 首 先 我 们 讨论 了 
建 模 和 推理 的 基本 原理 ， 然 后 介绍 了 数据 挖 所 算法 的 系统 框架 一 一 通过 各 种 计算 方法 和 算 
法 把 模型 与 数据 联系 起 来 ， 最 后 结合 诸如 分 类 和 回归 这 样 的 具体 技术 例 释 了 这 些 思想 。 因 
此 ， 本 书 可 分 为 三 大 部 分 : 

1. 基础 第 1 章 到 第 4 章 着 重 讨论 数据 和 数据 分 析 的 基本 原理 。 介 绍 了 数据 挖 据 (第 
1 章 )、 测 量 (第 2 章 )、 可 视 化 数据 (第 3 章 )、 不 确定 性 和 推理 (第 4 章 ) 的 基本 原理 。 

2， 数 据 挖掘 组 件 第 5 章 到 第 8 章 着 重 讨论 用 以 系统 地 创建 和 分 析 数 据 挖掘 算法 的 
各 个 标准 部 件 ， 即 我 们 所 称 的 数据 挖掘 算法 “组 件 ”。 第 5 章 主要 讨论 分 析 算 法 的 系统 方 
法 ， 我 们 认为 这 种 “分 组 件 ” 的 方法 为 那些 刚刚 接触 数据 挖掘 这 一 学 科 的 初学 者 提供 了 一 
种 非常 有 用 的 视角 ， 可 以 系统 地 透视 数据 分 析 算 法 中 那些 非常 容易 令 人 困惑 的 地 方 。 而 后 
在 这 一 框架 下 ， 我 们 对 每 个 组 件 进行 了 广泛 深入 的 讨论 ， 第 6 章 讨论 模型 表示 方法 ， 第 7 
章 讨 论 用 来 拟 合 模型 和 数据 的 评分 函数 ， 第 8 章 讨论 优化 和 搜索 技术 数据 管理 在 第 12 
章 讨论 )。 

3. 数据 挖掘 任务 和 算法 “本 书 的 前 8 章 已 经 对 数据 挖掘 的 基本 原理 和 组 件 进行 了 讨论 ， 
余下 的 章节 (第 9 章 到 第 14 章 ) 则 致力 于 特定 的 数据 挖掘 任务 以 及 针对 这 些 任务 的 算法 。 
我 们 将 基本 的 数据 挖掘 任务 组 织 成 以 下 几 类 : 密度 估计 和 聚 类 《〈 第 9 章 )、 分 类 (第 10 章 )、 
回归 (第 11 章 )、 模 式 发 现 〈 第 13 章 ) 以 及 根据 内 容 检索 〈 第 14 章 )。 在 这 些 章 节 中 我 们 
使 用 了 第 二 部 分 所 建立 的 框架 结构 ， 讨 论 了 针对 每 一 项 任务 的 具体 算法 。 例 如 ， 在 对 分 类 的 
讨论 中 ， 我 们 回答 了 这 些 问 题 : 哪些 模型 和 表示 是 值得 考虑 和 有 价值 的 ? 我 们 可 以 使 用 或 者 
应 该 用 哪些 评分 函数 来 训练 分 类 器 ? 哪些 优化 和 搜索 技术 是 必要 的 ? 一 旦 我 们 使 用 了 某 种 方 
法 来 实际 实现 算法 时 ， 这 个 算法 的 复杂 度 如 何 ? 我 们 希望 这 种 通用 的 方法 使 读者 认识 到 ， 数 
据 挖掘 算法 是 建立 在 一 些 非常 通用 的 系统 原理 之 上 的 ， 而 不 是 简单 地 将 一 些 看 起 来 并 不 相关 
的 生 个 算法 堆积 在 一 起 。 

如 果 将 本 书 用 于 教学 的 话 ， 那 么 正如 在 前 面 所 提 到 的 ， 本 书 的 目标 读者 是 具有 以 下 专业 
背景 的 大 学 生 : 计算 机 科学 、 工 程 学 、 数 学 、 自 然 科 学 以 及 像 经 济 学 这 样 的 面向 商业 的 很 多 
专业 。 从 教师 的 角度 来 说 ， 在 课程 中 应 该 如 何 政 盖 本 书 的 内 容 主 要 依赖 于 课时 长 度 〈 例 如 10 
周 还 是 15 周 ) 和 学 生 对 统计 学 和 机 器 学 习 等 基本 概念 的 熟悉 程度 。 举 例 来 说 ， 如 果 是 为 具 
有 统计 学 基本 概念 的 一 年 级 研究 生 开设 的 10 周 长 度 的 课程 ， 那 么 教师 可 以 简单 地 讲述 前 面 
的 章节 ， 提 纲 者 领地 讨论 第 3 章 、 第 4 章 、 第 5 章 和 第 7 章 ; 并 将 第 1 章 、 第 2 章 、 第 6 章 
和 第 8 章 作为 背景 /补充 读物 要 求学 生 阅读 ， 然 后 把 10 周 中 的 大 部 分 时 间 放 在 第 9 章 到 第 14 
章 的 内 容 上 ， 对 这 些 内 容 进行 深入 的 讨论 。 

然而 ， 许 多 同学 和 读者 可 能 只 有 很 少 的 或 根本 没有 正式 的 统计 学 背景 。 令 人 遗憾 的 是 许 
多 理工 科 专 业 ( 例 如 计算 机 科学 〉 的 本 科 生 或 研究 生 只 有 非常 和 有 有限 的 统计 学 知识 ， 他 们 对 许 
多 现代 程序 中 的 统计 思想 知之 甚 少 。 由 于 本 书 很 大 程度 上 是 从 统计 学 的 角度 来 讨论 数据 挖掘 
的 ， 所 以 我 们 在 计算 机 系 学 生 中 使 用 本 书 草稿 的 经 验 告诉 我 们 ， 对 于 许多 学 生来 说 ， 在 10 
周 或 15 周 的 课程 时 间 中 掌握 本 书 是 一 个 不 小 的 挑战 ， 因 为 要 完全 吸收 所 有 内 容 ， 他 们 必须 
掌握 第 2 章 到 第 8 章 中 提 到 的 相当 大 范围 的 统计 学 、 数 学 和 算法 概念 。 因 此 ， 在 教学 或 第 一 
遍 阅 读 时 ， 可 以 跳 过 本 书 的 一 些 章 节 ， 以 降低 难度 。 例 如 ， 本 书 第 11 章 中 的 回归 可 能 是 最 
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具 数 学 挑战 性 的 章节 ， 而 跳 过 这 一 内 容 也 不 会 影响 对 其 他 内 容 的 理解 。 同 样 ， 第 9 章 中 的 某 
些 内 容 (比如 说 有 关 泥 合 模 型 的 内 容 〉 也 可 以 跳 过 ; 第 4 章 中 的 由 叶 斯 估计 框架 也 如 此 。 那 
么 哪些 内 容 是 阅读 的 关键 呢 ?” 我 们 认为 第 1 章 到 第 5 章 和 第 7 章 、 第 8 章 和 第 12 章 中 的 绝 
大 多 数 内 容 对 学 生来 说 是 必须 掌握 的 ， 这 些 内 容 是 掌握 后 续 章 节 中 的 模型 和 算法 思想 (第 6 
章 包 含 了 很 多 关于 一 般 建 模 概念 的 有 价值 的 内 容 ， 但 是 篇 幅 相 当 长 ， 所 以 可 以 跳 过 以 缩短 时 
间 ) 的 关键 。 第 9 章 、 第 10 章 、 第 11 章 、 第 13 章 和 第 14 章 是 “针对 各 种 任务 ”的 ， 这 些 
章 的 内 容 是 彼此 相对 独立 的 ， 所 以 可 以 任意 选择 其 中 的 一 些 章 节 (但 是 前 提 是 已 经 相当 好 地 
掌握 了 第 1 章 到 第 8 章 中 的 内 容 )。 

建议 那些 仅 具 有 很 少 统计 学 知识 的 学 生 ， 在 学 习 本 书 第 4 章 〈 关 于 不 确定 性 ) 之 前 ， 应 
该 复习 一 下 概率 论 和 统计 学 中 的 一 些 基 本 概念 。 如 果 连 诸如 条 件 概率 和 期 望 这 样 的 基本 概念 
都 还 没有 熟练 掌握 的 话 ， 那 么 就 会 在 第 4 章 及 以 后 章节 的 学 习 中 遇 到 相当 大 的 困难 。 本 书 附 
录 中 简要 介绍 了 常见 分 布 的 定义 和 基本 的 概率 知识 ， 不 过 许多 学 生 可 能 喜欢 在 学 习 新 东西 之 
前 再 复习 他 们 大 学 期 间 的 概率 论 和 统计 学 教材 。 

另 一 方面 ， 对 于 那些 具有 坚实 统计 学 背景 的 读者 〈 例 如 统计 专业 学 生 或 是 对 数据 挖掘 有 
兴趣 的 统计 学 家 ) 来 说 ， 本 书 的 绝 大 部 分 内 容 看 起 来 相当 熟悉 ， 甚 至 有 的 统计 学 读者 可 能 会 
倾向 于 说 :“ 咳 ， 这 本 数据 挖掘 的 材料 在 很 多 方面 与 应 用 统计 学 的 内 容 非 常 相似 啊 !” 这 句 话 
确实 多 少 有 些 道理 ， 因 为 数据 挖掘 技术 〈 在 我 们 看 来 ) 在 相当 大 的 程度 上 依赖 于 统计 模型 和 
方法 。 然 而 ， 统 计 学 者 在 本 书 的 很 多 地 方 都 会 很 容易 地 发 现 相当 多 的 新 内 容 : 第 1 章 的 总 括 
部 分 、 第 5 章 的 算法 观点 、 第 7 章 的 评分 函数 观点 、 从 第 12 章 到 第 14 章 的 数据 库 原 理 、 模 
式 发 现 以 及 根据 内 容 检索 等 。 另 外 ， 我 们 还 从 数据 挖掘 的 角度 展示 了 许多 传统 的 统计 学 概念 
(例如 分 类 、 聚 类 和 回归 等 )， 以 及 在 普通 统计 学 教材 中 通常 不 包括 的 有 关 算 法 和 计算 复杂 
度 的 丰富 内 容 。 包 括 如 何 将 各 种 技术 运用 到 不 同 的 数据 控 握 应 用 中 。 昌 然 如 此 ， 统 计 学 者 还 
是 会 在 本 书 中 发 现 许多 熟悉 的 材料 。 如 果 要 从 计算 和 数据 管理 的 角度 讨论 数据 挖掘 ， 那 么 可 
以 参阅 参考 文献 中 列 出 的 Han and Kamber (2000); 如果 需要 侧重 于 商业 应 用 的 材料 ， 那 么 
可 以 参阅 参考 文献 中 列 出 的 Berry and Linoff (2000)。 这 些 教材 可 以 作为 课堂 教学 的 补充 读 
物 。 

总 而 言 之 ， 本 书 讨论 了 用 于 数据 挖掘 的 各 种 工具 ， 并 将 它们 分 解 为 不 同 的 组 成 部 分 ， 以 
便 看 到 各 个 组 成 部 分 间 的 相互 关系 和 结构 。 本 书 不 仅 给 出 了 如 何 设计 这 些 工 具 的 内 幕 ， 而 且 
力图 使 读者 在 面临 特定 的 问题 时 ， 能 够 独立 设计 出 合适 的 数据 挖掘 工具 。 本 书 也 阑 释 了 为 什 
说 数据 控 扬 是 一 个 过 程 一 一 不 是 那些 一 践 而 就 的 任务 , 而 是 一 种 “发 现 一 一 表示 一 一 再 调查 ” 
的 持续 过 程 。 本 书 也 包含 了 大 量 针对 现实 数据 的 应 用 ， 其 中 很 多 是 从 作者 本 人 所 从 事 的 科研 
和 应 用 研究 中 选 摘 的 。 为 了 教学 的 方便 ， 所 有 讨论 的 数据 集合 并 非 都 是 很 大 ， 因 为 这 样 解释 
起 来 更 加 简单 。 而 且 一 旦 领会 了 其 中 的 思想 ， 就 可 以 很 容易 地 把 这 些 思想 应 用 到 现实 大 小 的 
数据 集中 。 

综 上 所 述 ， 数 据 挖掘 技 术 的 确 是 一 门 令 人 兴奋 的 学 科 。 当 然 ， 和 所 有 的 科研 事业 都 一 样 ， 
许多 努力 将 是 没有 回报 的 〈 做 一 项 保证 会 成 功 的 研究 ， 这 样 的 情况 是 罕见 的 ， 而 且 也 是 乏味 
的 )。 但 是 一 旦 一 个 令 人 兴奋 的 发 现 〈 信 息 的 宝石 ) “出土 ” 这些 努力 也 就 获得 了 成 倍 的 补 
偿 。 我 们 希望 本 书 能 够 激励 读者 前 进 并 发 现 自 己 的 宝石 ! 

我 们 囊 心 地 感谢 Christine McLaren 允许 我 们 使 用 红血球 数据 作为 第 9 章 和 第 10 章 的 演 
示 实 例 。Padhraic Smyth 在 本 书 中 的 工作 受到 了 美国 国家 科学 基金 会 《Grant IRI-9703120) 
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1.1 数据 挖掘 简介 


数据 采集 和 存储 技术 的 进步 导致 庞大 的 数据 库 日 益 增 多 。 这 已 经 发 生 在 人 类 耕耘 的 几乎 
所 有 领域 ， 从 普通 的 〈 比 如 超市 业务 数据 、 信 用 卡 使 用 记录 、 电 话 呼叫 清单 以 及 政府 统计 数 
据 ) 到 不 太 普 通 的 〈 比 如 天 体 图 像 、 分 子 数 据 库 和 医疗 记录 )。 那 么 ， 能 否 从 这 些 数据 中 提 
取出 对 数据 库 拥 有 者 有 价值 的 信息 呢 ? 毫 无 疑问 ， 人 们 对 这 个 问题 的 兴趣 在 不 断 增长 。 而 且 
已 经 形成 了 致力 于 这 个 任务 的 一 门 学 科 ， 称 为 “数据 挖 据 〈data mining)”. 

定义 一 门 学 科 总 是 一 件 容易 引起 争论 的 事情 ， 学 者 们 经 常 反对 给 他 们 的 研究 领域 划 定 精 
确 的 范围 和 界限 。 考 虑 到 这 一 点 ， 并 且 想 到 有 些 人 可 能 不 喜欢 细 枝 末节 ， 所 以 我 们 在 本 书 中 
采用 以 下 的 数据 挖掘 定义 : 


数据 挖 气 就 是 对 观测 到 的 数据 集 ( 经 常 是 很 庞大 的 ) 进行 分 析 ， 目 的 是 发 现 未 
知 的 关系 和 以 数据 拥有 者 可 以 理解 并 对 其 有 价值 的 新 颖 方式 来 总 结 数据 。 


通过 数据 挖掘 过 程 所 推导 出 的 关系 和 摘要 经 常 被 称 为 模型 (model) 或 模式 (pattem). 
例如 线性 方程 、 规 则 、 聚 类 〈cluster)、 图 、 树 结构 以 及 用 时 间 序 列表 示 的 循环 模式 。 

上 面 定义 中 所 说 的 “观测 到 的 数据 ”， 是 与 “实验 得 到 的 ”数据 相对 而 言 的 。 一 般 来 说 
数据 挖掘 所 处 理 的 数据 是 为 了 其 他 某 个 目的 已 经 收集 好 的 ， 而 不 是 为 了 数据 分 析 本 身 去 收集 
的 〈 例 如 ， 这 些 数 据 可 能 是 银行 中 为 正常 业务 所 需 而 收集 的 )。 这 意味 着 数据 挖掘 的 目标 根 
本 不 在 于 数据 采集 策略 。 这 是 数据 挖掘 区 别 于 大 多 数 统计 任务 的 一 个 特征 ， 在 统计 中 经 常 是 
利用 高 效率 的 策略 来 采集 数据 以 回答 特定 的 问题 。 由 于 这 个 原因 ， 数 据 挖掘 经 常 被 称 为 “次 
级 的 ”数据 分 析 。 

定义 中 还 提 到 了 数据 挖掘 所 分 析 的 经 常 是 很 庞大 的 数据 集 。 如 果 仅 涉及 很 小 的 数据 集 ， 
那么 我 们 就 可 以 仅仅 讨论 统计 学 家 们 所 使 用 的 标准 数据 探测 和 分 析 方法 了 。 当 面 对 很 庞大 的 
数据 集 时 ， 新 的 问题 就 产生 了 。 有 些 问题 是 与 如 何 存储 或 访问 这 些 数据 有 关 的 ， 这 可 能 很 好 
解决 ， 但 是 还 有 很 多 更 重要 的 问题 ， 比 如 如 何 表示 数据 ， 如 何在 合理 的 时 间 内 分 析 数 据 ， 以 
及 如 何 判定 一 个 表面 上 的 关系 是 否 仅仅 是 偶然 发 生 的 ， 并 不 能 反映 任何 潜在 的 事实 。 大 多 数 
情况 下 ， 现 有 的 数据 仅仅 是 整个 总 体 〈 或 者 可 能 是 一 个 猜想 的 超 总 体 〈superpopulation )) 的 
一 个 样本 ; 最 终 的 目的 可 能 是 从 这 个 样本 泛 化 (generalize) 到 总 体 。 举 例 来 说 ， 我 们 可 能 希 
望 预测 未 来 客户 的 可 能 行为 或 判断 我 们 未 见 过 的 蛋白 质 的 结构 特征 。 通 过 标准 的 统计 方法 可 
能 无 法 实现 这 样 的 泛 化 ， 因 为 数据 经 常 不 是 “随机 样本 ”( 这 是 经 典 统计 方法 必须 的 )， 而 是 
“顺便 的 ”或 者 说 “机 会 的 > 样本。 不过, 有 时 我 们 可 能 想 要 用 某 种 方式 总 结 或 压缩 (compress) 
一 个 庞大 的 数据 集 ， 使 得 到 的 结果 更 容易 让 人 理解 ， 并 不 带 有 任何 的 泛 化 目的 。 例 如 ， 当 我 
们 面 对 某 个 国家 的 全 部 人 口 普 查 数据 或 数 百 万 条 的 零售 业务 记录 时 ， 便 会 有 这 样 的 问题 。 





O 边栏 数字 为 原 书页 码 ， 与 索引 中 的 页 码 相 呼应 。 
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(除非 ， 目 的 是 确认 假设 ， 以 判定 一 个 建立 的 模式 是 否 也 在 新 的 数据 集中 存在 ) 或 必然 的 关 
系 〈 例 如 ， 所 有 怀孕 的 患者 都 是 女 的 ) 是 没什么 价值 的 。 当 然 ， 新 颖 性 是 相对 用 户 以 前 的 知 
识 而 言 的 。 不 幸 的 是 几乎 所 有 数据 挖掘 算法 都 不 考虑 用 户 以 前 的 知识 。 由 于 这 个 原因 ， 我 们 
在 本 书 中 不 过 多 地 讨论 新 颖 性 。 那 是 一 个 正在 研究 的 课题 。 

虽然 新 颖 性 是 我 们 要 寻找 的 关系 的 一 个 重要 特征 ， 但 是 它 不 足以 确定 是 否 值得 搜索 一 个 
关系 。 需 要 指出 的 是 ， 寻 找到 的 关系 还 必须 是 易于 理解 的 。 例 如 简单 的 关系 比 繁琐 的 关系 更 
易于 理解 ， 所 以 如 果 其 他 方面 都 相同 的 话 我 们 会 优先 选择 简单 的 关系 。 

数据 挖掘 经 常 被 置 于 更 广阔 的 数据 库 知识 发 现 (knowledge discovery in databases) 也 就 
是 KDD 的 大 背景 下 。KDD 这 个 术语 来 源 于 人 工 智能 CAD 领域 。KDD 过 程 包括 几 个 阶段 : 
选择 目标 数据 、 预 处 理 数据 、 转 化 数据 〈 如 果 需 要 )、 进 行 数据 挖掘 以 提取 模式 和 关系 、 解 
释 并 评价 发 现 的 结构 。 为 这 个 过 程 中 的 数据 挖掘 部 分 精确 划 定 界限 也 不 是 简单 的 事 ， 例 如 很 
多 人 认为 数据 转化 是 数据 挖掘 的 -- 个 必 不 可 少 的 部 分 。 在 这 本 教材 中 我 们 主要 集中 讨论 各 种 
算法 而 不 是 整个 过 程 。 例 如 我 们 不 会 花 很 多 时 间 来 讨论 数据 预 处 理 问题 ， 比 如 数据 净化 、 数 
据 核对 和 定义 变量 等 。 相 反 我 们 将 集中 讨论 一 些 基 本 的 原理 ， 包 括 对 数据 建 模 以 及 如 何 构造 
算法 过 程 以 把 这 些 模型 拟 合 到 数据 。 

寻找 数据 集中 的 关系 也 就 是 寻找 精确 、 方 便 并 且 有 价值 地 总 结 了 数据 的 某 一 特征 的 表 
示 ， 这 个 过 程 包括 很 多 个 步 又 : 

o 决定 要 使 用 的 表示 的 特征 和 结构 ; 

@ 决定 如 何 量化 和 比较 不 同 表示 拟 合 数据 的 好 坏 〈 也 就 是 选择 一 个 “评分 (score)” 哨 

BO; 

o 选择 一 个 算法 过 程 使 评分 函数 最 优 ; 

@ 决定 用 什么 样 的 数据 管理 原则 以 高 效 地 实现 算法 。 

这 本 教材 的 目标 就 是 系统 详细 地 讨论 这 些 问 题 。 书 中 既 包 括 了 基本 的 原理 〈 第 2 章 到 第 8 
章 )， 又 包括 了 如 何 应 用 这 些 原 理 来 构造 和 评估 特定 的 数据 挖掘 算法 〈 第 9 到 第 14 章 )。 


例 1.1 回归 分 析 是 很 多 读者 热 悉 的 工具 . 在 最 简单 的 回归 形式 中 , 通过 了 = aX 
蕊 的 形式 把 一 个 预报 (predictor) 变量 与 一 个 响应 (response) 变量 了 联系 起 来 。 
举例 来 说 ， 我 们 可 以 使 用 这 种 方法 建立 一 个 模型 ， 通 过 这 个 模型 我 们 可 以 根据 一 个 
人 的 年 收入 预测 他 每 年 的 信用 卡 支出 。 当 然 这 个 模型 不 会 很 完美 ， 但 由 于 支出 一 般 
是 随 着 收入 增长 的 ， 所 以 这 个 模型 足 可 以 作出 一 个 粗略 的 刻画 。 根据 上 面 列 出 的 步 
又， 我 们 可 以 这 样 设计 这 个 任务 的 解决 方案 : 
© 表示 模型 中 ， 响 应 变量 spending 与 预测 变量 income 线性 相关 。 
@ 在 本 例 这 样 的 情况 下 ， 最 普遍 使 用 的 评分 函数 是 模型 预测 支出 与 观测 到 支 
出 间 差 异 的 平方 和 。 
© 线性 回归 的 最 优化 算法 是 非常 简单 的 : 可 以 把 a 和 已 表示 为 观测 到 支出 和 
收入 值 的 函数 ， 我 们 将 在 第 11 章 描 述 其 中 的 数学 细节 。 
@ 除非 数据 集 非常 庞大 ， 和 否则 对 于 线性 回归 算法 来 说 没有 什么 数据 管理 问题 。 
数据 的 简单 汇总 ( 求 和 ， 对 平方 求 和 ， 以 及 对 X 和 了 值 的 乘积 求 和 ) MA 
以 计算 出 a 和 4。b 的 估计 值 。 这 意味 着 只 要 遍历 数据 一 次 就 可 以 得 到 预测 。 
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数据 挖掘 是 一 门 跨 学 科 的 技术 。 统 计 学 、 数 据 库 技 术 、 机 器 学 习 、 模 式 识 别 、 人 工 智 能 、 
可 视 化 技术 都 在 数据 挖掘 中 起 着 作用 。 而 且 就 像 难以 定义 这 些 学 科 问 的 严格 界限 一 样 ， 也 很 
难 定义 这 些 学 科 和 数据 挖掘 间 的 界限 。 在 边缘 上 ， 一 个 人 的 数据 挖掘 问题 可 能 是 其 他 人 的 统 
计 、 数 据 库 或 机 器 学 习 问题 。 


12 ”数据 集 属性 


我 们 首先 讨论 数据 集 的 基本 特征 。 

数据 集 是 从 某 个 环境 或 过 程 中 取得 的 一 系列 测量 结果 。 对 于 最 简单 的 情况 ， 我 们 有 一 系 
列 对 象 ， 每 一 个 对 象 都 有 统一 的 p 个 测量 结果 。 这 时 我 们 可 以 把 这 个 对 象 的 一 系列 测量 结 
果 看 作 一 个 n xp 的 数据 佐 阵 。 和 矩阵 中 的 n 行 表示 被 测量 的 n HR Gl, EPH BA. 
信用 卡 用 户 ， 或 从 夜 宝 中 观测 到 的 天 体 ， 比 如 各 种 星星 和 星系 )。 根 据 不 同 的 上 下 文 环境 可 
以 把 这 样 的 行 称 为 个 体 (individual)、 实体 (entity)、 实 例 (case)、 对 象 (object) 或 记录 (record)。 

数据 矩阵 的 另 一 维 包含 对 每 个 对 象 所 作 的 p 种 测量 。 通 常 我 们 假定 对 每 个 个 体 使 用 同样 
的 p 个 测量 指标 ， 不 过 这 未 必 和 实 际 情况 一 致 〈 例 如 ， 对 于 不 同 的 患者 可 能 使 用 不 同 的 检验 
方法 )。 可 以 把 数据 矩阵 的 p 个 列 称 为 变量 (variable)、 特 征 (feature)、 属 性 (attribute〉 或 者 
字段 (field)， 与 前 面 一 样 到 底 使 用 哪 一 种 说 法 要 看 研究 的 上 下 文 。 在 所 有 情况 下 ， 思 想 是 一 
样 的 ， 即 这 些 名 字 是 指 每 一 列 所 代表 的 测量 。 在 第 2 章 中 我 们 将 更 详细 地 讨论 测量 的 概念 。 


例 1.2 ”美国 人 口 普查 局 每 隔 十 年 调查 一 次 美国 人 口 信息 。 这 些 信息 中 的 一 部 分 
是 对 公共 使 用 开放 的 ， 但 所 有 能 够 识别 出 某 个 个 人 的 信息 都 被 删除 了 。 这 些 数据 集 被 
称 为 公用 微观 数据 样本 (Public Use Microdata Sample )， 或 PUMS。 可 以 按 5% 和 1% 
的 采样 率 得 到 这 些 数据 ， 注 意 即 使 是 对 美国 人 口 按 1% 采 样 ， 那 也 有 270 万 条 记录 。 
这 样 的 数据 集 可 能 包含 几 十 个 变量 ， 比 如 人 的 年 龄 、 总 收入 、 职 业 、 资 产 损 益 、 教 育 
程度 等 等 。 下 面 考虑 表 1-1 所 示 的 简单 数据 矩阵 。 注 意 这 里 的 数据 包含 不 同类 型 的 变 
量 ， 有 些 是 连续 型 的 、 有 些 是 范畴 型 的 (categorical )。 也 请 注意 有 些 值 是 空缺 的 ， 比 
te ID 4 249 的 人 的 年 龄 ， 和 ID 为 255 的 人 的 婚姻 状况 。 在 现实 情况 下 ， 庞 大 的 数据 
集中 缺少 某 些 测量 结果 是 很 普遍 的 。 更 容易 导致 错误 的 是 测量 结果 中 的 噪声 。 Hilde, ID 
为 248 的 人 的 收入 真 的 是 100 000 美元 还 是 这 仅仅 是 一 个 粗略 的 估计 ? 


表 1-1 公用 微观 数据 样本 中 的 数据 示例 


ID 年 龄 性 a 婚姻 状况 文化 程度 收 入 
248 54 男 已 婚 高 中 毕业 100 000 
249 O 女 己 婚 高 中 毕业 12 000 
250 29 男 己 婚 大 专 23 000 
251 9 男 未 婚 儿童 0 
252 85 x 未 婚 高 中 毕业 19 798 
253 40 B 已 婚 高 中 毕业 40 100 
254 38 女 未 婚 低 于 一 年 级 2691 
255 7 男 O 儿童 0 
256 49 男 已 婚 十 一 年 级 30 000 
男 
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对 于 这 种 类 型 的 数据 ， 一 个 典型 的 任务 是 发 现 不 同 变量 间 的 关系 。 倒 如 我 们 可 
能 起 看 一 看 从 其 他 变量 预测 一 个 人 的 收入 有 多 准确 。 我 们 也 可 能 想 看 一 看 是 否 存在 
独特 的 人 群 ， 或 者 对 发 现 变 量 的 频繁 值 感 兴趣 。 可 以 从 加 利 福 尼 亚 大 学 Irvine 分 校 
的 机 器 学 习 资 料 库 中 在 线 得 到 包含 部 分 变量 的 一 些 记录 ，http://www.ics.uci. edu/~ 
miearn/MLSummary.html. 


数据 是 以 很 多 种 形式 出 现 的 ， 而 且 本 书 的 目的 也 不 是 要 开发 全 面 的 数据 分 类 系统 。 事 实 
上 ， 现 在 还 不 清楚 是 否 能 够 开发 出 这 样 一 个 全 面 的 分 类 系统 ， 因 为 在 一 个 条 件 下 很 重要 的 数 
据 特 征 可 能 在 另 一 个 条 件 下 并 不 重要 。 然 而 有 一 些 基 本 的 差别 是 我 们 该 注意 的 。 一 点 是 数量 
值 和 范畴 值 的 不 同 〈《 有 时 使 用 不 同 的 名 字 来 称呼 这 两 类 值 )。 一 个 数量 值 变 量 是 按照 某 个 数 
字 比 例 测 量 的 ， 并 且 至 少 在 理论 上 是 可 以 取 任 意 值 的 。 表 1-1 中 的 年 龄 和 收入 列 是 数量 值 变 
量 的 例子 。 相 反 , 像 性 别 、 婚 姻 状 况 和 文化 程度 这 样 的 范畴 值 变量 仅 能 取 确 定 个 数 的 离散 值 。 
医学 上 使 用 的 三 档 严 重 程度 轻微 、 中 等 和 严重 ) 是 范畴 值 的 另 一 个 常见 例子 。 范 畴 值 可 能 
是 有 顺序 的 〈 对 应 一 个 自然 的 排序 ， 就 像 文化 程度 ) 也 可 能 就 是 一 种 标 称 〈 仅 仅 是 对 这 个 范 
咕 的 命名 ， 像 婚姻 状况 那样 )。 适 合 一 种 数据 度量 的 分 析 技 术 未 必 适 合 另 一 种 〈 不 过 这 确实 
要 看 分 析 的 目标 一 一 参见 Hand (1996)， 其 中 有 更 详细 的 讨论 )。 例 如 如 果 把 婚姻 状况 表示 
为 整数 (比如 1 表示 单身 ，2 表示 已 婚 ，3 表示 丧偶 ， 依 此 类 推 )， 那 么 对 于 这 个 样本 中 的 这 
个 指标 计算 数学 平均 值 通 常 是 没有 意义 的 或 者 说 是 不 恰当 的 。 类 似 的 ， 简 单线 性 回归 《把 一 
个 数量 值 变量 预测 为 其 他 变量 的 函数 ) 通常 适 于 数量 值 的 数据 ， 如 果 应 用 到 范畴 值 变量 则 是 
不 恰当 的 。 针 对 相似 目标 的 其 他 技术 可 能 更 适合 于 范畴 值 变量 。 

不 管 如 何 定义 测量 尺度 ， 它 总 是 位 于 数据 分 类 系统 的 底层 。 由 此 向 上 ， 我 们 会 发 现 数据 
是 按 不 同 的 关系 和 结构 产生 的 。 数 据 可 能 是 按时 间 序 列 方式 连续 产生 的 ， 在 这 种 情况 下 ， 数 
据 挖掘 可 以 针对 整个 时 间 序列 ， 也 可 以 针对 这 个 序列 的 特定 片段 。 数 据 也 可 能 描述 空间 的 关 
系 ， 因 此 对 单个 记录 来 说 ， 仅 当 从 其 他 记录 的 上 下 文 环境 来 考虑 时 才能 看 出 它 的 完全 含义 。 

考虑 一 个 关于 医疗 患者 的 数据 集 。 它 可 能 包括 对 同一 个 变量 例如 血压 的 多 个 测量 结 
果 ， 每 个 测量 结果 对 应 不 同 的 时 间 。 某 些 患 者 可 能 有 进一步 的 图 像 数据 〈 例 如 X 射 线 或 磁 共 
振 图 像 )， 而 其 他 人 没有 。 某 个 人 可 能 还 有 文字 形式 的 数据 ， 记 录 了 专家 对 他 的 病情 的 注释 
和 诊断 。 此 外 ， 在 患者 和 医生 、 医 院 、 以 及 地 理 位 置 间 还 可 能 存在 一 层 关系 。 数 据 结构 越 复 
杂 ， 我 们 需要 的 数据 挖掘 模型 、 算 法 和 工具 也 就 越 复 杂 。 

由 于 上 面 讨论 的 各 种 原因 ，n x p 的 数据 矩阵 经 常 是 对 实际 情况 的 一 种 过 度 简化 或 者 说 
理想 化 。 很 多 数据 集 不 适合 这 样 的 简单 格式 。 尽 管 原则 上 很 多 信息 可 以 “ 压 平 ”成 n x p 的 
矩阵 (通过 适当 定义 的 p 个 变量 )， 但 是 这 经 常会 丢失 嵌入 在 数据 中 的 大 多 数 结构 信息 。 然 
而 ， 当 讨论 数据 分 析 的 基本 原理 时 ， 假 定 观测 的 数据 存在 于 一 个 x p HEEE AH E 
非常 方便 的 ， 所 以 我 们 除非 特别 说 明 也 使 用 这 种 方法 。 应 该 记 住 对 于 数据 挖掘 应 用 岂 和 己 可 
能 都 非常 大 。 有 必要 说 明 观 测 到 的 数据 矩阵 也 可 能 被 称 为 其 他 名 字 ， 比 如 数据 集 、 训 练 数据 、 
样本 、 数 据 库 等 (往往 不 同 术语 来 自 不 同 的 学 科 )。 


例 1.3 文本 文档 一 种 是 重要 的 信息 来 源 ， 数 据 控 握 方法 可 以 帮助 人 们 从 一 系 
列席 大 的 文档 ( 例如 网 页 ) 中 检索 有 价值 的 文本 。 每 篇 文档 可 以 被 看 作 单词 和 标点 
的 序列 。 挖 握 文 本 数据 库 的 典型 任务 包括 把 文档 分 类 到 预先 定义 的 类 目 中 ， 把 相似 
的 文档 聚 类 到 一 起 ， 以 及 寻找 匹配 查询 要 求 的 文档 。 一 个 典型 的 文档 集合 是 
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“Reuters-21578, Distribution 1.0”, 4f http://www. research.att.com/~lewis。 这 个 
集合 中 的 每 一 篇 文档 都 是 一 篇 短小 的 新 闻 专 线 文 章 。 

一 系列 文本 文档 也 可 以 被 看 作 一 个 矩阵 ， 行 表示 文档 ， 列 表示 单词 。 表 项 (d, 
w) 对 应 文档 d 中 单词 w 的 出 现 情况 ， 可 以 是 WwW 在 d 中 出 现 的 次 数 ， 或 者 干脆 是 如 
果 w 在 d 中 出 现 了 则 为 1 否则 就 为 0。 尽 管 使 用 这 种 方法 我 们 丢失 了 单词 在 文档 中 
的 顺序 信息 ( 因此 也 同时 失去 了 大 部 分 上 下 文 语义 )， 但 这 仍 是 一 个 对 文档 内 容 的 
不 错 的 表示 。 对 于 一 个 文档 集合 ， 短 阵 的 行 数 就 是 文档 的 篇 数 ， 列 数 就 是 独立 的 单 
词 数 。 因 此 庞大 的 多 语言 文档 集合 可 能 包含 上 百 万 行 和 几 百 或 几 千 列 。 注 意 这 样 的 
数据 矩阵 将 是 非常 稀 朴 的 ， 也 就 是 说 大 多 数 表 项 是 0。 我 们 将 在 第 14 章 更 加 详细 
地 讨论 文本 挖 据 。 


例 1.4 另 一 种 常见 的 数据 类 型 是 事务 数据 (transaction data )， 例 如 商店 的 销 
售 清单 ， 通 过 日 期 、 客 户 ID 以 及 商品 和 价格 列表 描述 每 一 笔 销售 (或 交易 )。 一 个 
类 似 的 例子 是 网 络 事务 日 志 ， 一 系列 三 元 组 (用户 ID. AR. HA) 表示 用 户 在 
某 个 时 间 访问 了 某 个 网 页 。 网 站 的 设计 者 和 拥有 者 经 常 对 了 解 用 户 浏览 他 们 网 站 的 
模式 非常 感 兴 趣 。 

就 像 对 待 文本 文档 一 样 ， 我 们 可 以 把 一 系列 事务 数据 转化 为 矩阵 的 形式 。 想 像 
一 个 席 大 的 稀 琉 和 矩 阵 ， 每 一 行 对 应 某 个 用 户 ， 每 一 页 对 应 茶 个 网 页 或 菜 种 商品 。 这 
个 短 阵 的 表 项 可 以 是 二 进 制 的 值 ( 例如 表示 一 个 用 户 是 否 已 经 访问 了 一 个 特定 网 
页 ) 或 整数 值 ( 例如 表示 一 个 用 户 已 经 访问 了 某 个 网 页 多 少 次 )。 

图 1-1 显示 隋 阵 形式 的 一 种 可 视 化 表示 ， 描 述 的 是 一 个 很 大 的 零售 事务 数据 
集中 的 一 小 部 分 数据 。 行 对 应 一 个 客户 个 体 ， 列 对 应 商品 的 种 类 ， 每 一 个 黑色 的 表 
项 表示 对 应 那 一 行 的 客户 购买 了 对 应 那 一 列 的 商品 。 即 使 是 在 这 种 简单 的 显示 中 ， 
我 们 也 可 以 发 现 某 些 明显 的 模式 。 例 如 ， 客 户 购买 商品 的 种 类 和 购买 数量 方面 都 有 
相当 大 的 差异 ， 另 外 ， 某 几 类 商品 有 不 少 客户 购买 (例如 ， 列 3、5、11、26)， 某 
些 列 是 所 有 人 都 没有 购买 的 (例如 ， 列 18 和 19 )。 我 们 也 看 到 有 些 类 商品 经 常 是 
被 一 起 购买 的 (例如 ， 列 2 和 3)。 

但 是 也 该 注意 到 ， 通 过 这 种 “平面 表示 ”我 们 可 能 和 半 失 了 信息 的 某 些 重要 部 分 ， 
比如 购买 的 顺序 和 时 间 信 息 (比如 商品 是 按 什 么 顺序 和 在 什么 时 间 被 购买 的 )， 以 
及 各 个 商品 间 的 结构 关系 信息 ( 比如 产品 类 别 层次 ， 网 页 间 的 链接 ， 等 等 )。 然 而 ， 
把 这 样 的 数据 看 作 一 个 标准 的 n x p 答 阵 经 常 是 有 价值 的 。 例 如 这 允许 我 们 通过 比 
较 p 维 网 页 访问 向 量 来 定义 用 户 间 的 距离 ， 从 而 根据 网 页 模式 对 用 户 进行 聚 类 分 
析 。 我 们 将 在 第 9 章 更 加 详细 地 讨论 聚 类 。 


1.3 ”结构 类 型 : 模型 和 模式 
可 以 从 很 多 角度 来 对 数据 挖掘 所 探寻 的 不 同 表示 进行 分 类 。 一 种 方法 是 分 析 全 局 模型 
(model) 和 局 部 模式 (pattern) 的 差异 。 


这 里 我 们 把 模型 结构 定义 为 对 数据 集 的 全 局 性 总 结 ， 它 对 整个 测量 空间 的 每 一 点 作出 
描述 。 从 几何 角度 讲 ， 如 果 我 们 把 数据 矩阵 的 各 行 看 作 p 维 向 量 (也 就 是 p 维 空间 中 的 点 》， 
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那么 模型 可 以 对 这 个 空间 中 的 每 一 点 〈 也 就 是 所 有 对 象 ) 作出 描述 。 例 如 ， 它 可 以 把 一 个 
点 分 配 到 一 个 聚 类 或 者 预测 出 某 个 其 他 变量 的 值 。 即 使 缺少 一 些 测 量 结果 《也 就 是 p 维 向 
量 的 一 些 分 量 是 未 知 的 )， 模 型 一 般 也 可 以 对 这 样 的 〈 不 完全 ) 向 量 所 表示 的 对 象 作出 某 
种 论断 。 
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图 1-1 显示 为 二 进 制图 像 的 零售 事务 数据 集 的 一 部 分 ， 图 中 
画 出 了 100 个 客户 个 体 〈 行 ) 和 40 种 商品 〈 列 ) 的 情况 


一 个 简单 的 模型 可 能 取 这 样 的 形式 : Y=aX+c, HP YMX BRE, afl 是 模型 的 参 
数 〈 数 据 挖掘 过 程 中 要 决定 的 常数 )。 因 为 了 是 X 的 线性 函数 ， 所 以 我 们 说 这 个 模型 的 函数 
形式 是 线性 的 〈linear)。 这 个 术语 在 传统 统计 学 中 的 含义 与 此 略 有 不 同 。 在 统计 学 中 ， 当 一 
个 模型 是 参数 (parameter) 的 线性 函数 时 说 这 个 模型 是 线性 的 。 在 本 书 中 我 么 将 尽 可 能 地 明 
确 指 出 我 们 使 用 的 是 哪 一 种 线性 概念 ， 但 当 我 们 讨论 模型 的 结构 时 〔 就 像 在 这 里 我 们 约定 
要 考虑 的 线性 特征 是 相对 感 兴趣 变量 的 ， 而 不 是 相对 参数 。 例 如 ， 在 传统 统计 范畴 中 ， 模 型 
结构 了 Y= aX? + bX + c 被 认为 是 线性 模型 ， 但 联系 Y 和 XX 的 模型 的 函数 形式 是 非 线性 的 (是 
一 个 二 次 多 项 式 )。 

与 模型 的 全 局 性 相反 ， 模 式 结 构 (pattern structure) 仅 对 变量 变化 空间 的 一 个 有 限 区 域 
作出 描述 。 一 个 例子 是 以 下 这 种 形式 的 简单 概率 性 结论 ， 如 果 XX > xy BAY > yi 的 概率 为 
pl。 这 个 结构 由 对 变量 X 和 变量 Y 的 值 的 约 来 《constraint) 组 成 ， 并 以 概率 规则 的 形式 将 这 
两 个 变量 联系 起 来 。 另 一 种 方法 是 ， 我 们 可 以 把 这 个 关系 描述 为 条 件 概率 p(Y > yi |X > 21) = 
pl， 在 语义 上 这 与 前 面 是 等 价 的 。 另 一 个 例子 是 ， 我 们 可 能 注意 到 事务 记录 中 的 某 些 类 记录 
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没有 显示 出 大 多 数 记录 所 显示 出 的 峰 谷 特征 ， 因 此 需要 一 步 分 析 寻 找 其 中 的 原因 。( 利 用 这 
种 方法 ， 一 家 银行 发 现 了 那些 属于 已 经 去 逝 的 人 的 账户 。) 

因此 ， 与 〈 全 局 的 ) 模型 不 同 ,，( 局 部 的 ) 模式 描述 的 结构 仅 与 数据 或 一 小 部 分 数据 
空间 有 关 。 或 许 仅 有 一 部 分 记录 具有 某 种 特性 ， 那 么 模式 就 是 用 来 刻画 这 一 部 分 数据 的 。 
例如 ， 搜 索 通 过 邮件 订购 商品 的 数据 库 可 能 发 现 购 买 某 个 商品 组 合 的 人 也 可 能 购买 其 他 
的 。 还 有 ， 或 许 我 们 可 以 标识 出 和 大 多 数 记 录 〔 可 以 想像 为 是 p 维 空间 中 的 中 央 云 团 ) 完 
全 不 同 的 “孤立 ”记录 。 最 后 一 个 例子 说 明 全 局 的 模型 和 局 部 的 模式 有 时 是 相互 联系 的 〈 好 
比 同 一 枚 硬币 的 两 个 面 )。 为 了 探测 异常 的 行为 我 们 需要 一 种 对 正常 行为 的 描述 。 局 部 模 
式 的 作用 相当 于 统计 分 析 中 的 信息 诊断 diagnostic)， 局 部 模式 探测 方法 已 经 应 用 于 很 多 
异常 探测 任务 ， 例 如 工业 生产 中 的 故障 探测 ， 银 行 和 其 他 商业 活动 中 的 欺诈 行为 探测 。 

注意 上 面 描述 的 模型 和 模式 都 有 参数 与 之 相关 ， 比 如 模型 例子 中 的 a，b，c 和 模式 例子 
中 的 x,，yj，p1。 通 常 一 旦 我 们 已 经 建立 了 要 寻找 的 结构 形式 ， 下 一 步 就 是 要 从 现 有 的 数据 
中 估计 出 结构 的 参数 。 这 个 过 程 的 细节 将 在 第 4 章 、 第 7 章 和 第 8 章 中 讨论 。 一 旦 这 些 参数 
被 赋值 , 我 们 便 把 这 个 特定 的 模型 (比如 y=3.2x + 2.8) 称 为 “已 经 拟 合 的 模型 (fitted model)”, 
或 简短 起 见 就 叫 “ 模 型 ”( 类 似 地 ， 对 模式 来 说 也 如 此 )。 把 模型 (或 模式 ) 结构 和 实际 的 (已 
PSH) 模型 (或 模式 ) 区 分 开 来 是 非常 重要 的 。 结 构 代表 模型 (或 模式 ) 的 一 般 函 数 形式 ， 
还 没有 确定 参数 值 。 已 拟 合 的 模型 或 模式 已 经 具有 了 特定 的 参数 值 。 

在 很 多 情况 下 ， 把 模型 和 模式 区 别 对 待 是 有 价值 的 。 但 与 大 多 数 为 了 便于 人 类 理解 而 做 
的 自然 分 类 一 样 ， 二 者 的 界限 不 是 非常 严格 的 ， 有 时 该 把 一 个 结构 看 作 模 型 还 是 模式 并 不 明 
确 。 这 种 情况 下 ， 最 好 不 要 过 分 关心 哪 一 个 更 合适 ， 区 分 它们 仅 是 为 了 帮助 我 们 讨论 ， 而 不 
是 要 强加 一 种 约束 。 





1.4 数据 挖掘 任务 


根据 数据 分 析 工作 者 的 不 同 目标 来 划分 数据 挖掘 任务 的 类 型 是 很 方便 的 。 下 面 给 出 的 分 
类 不 是 唯一 的 ， 而 且 还 可 以 进一步 划分 出 更 细致 的 任务 ， 但 它 总 结 了 数据 挖 气 活 动 的 各 个 类 
型 ， 并 预览 了 本 书后 面 将 要 描述 的 主要 数据 挖掘 算法 。 


1， 探 索性 数据 分 析 (Exploratory Data Analysis, EDA) (383 #2): 正 像 名 字 所 暗示 的 ， 
这 种 方法 的 宗 骨 就 是 对 数据 进行 探索 ， 在 探索 时 我 们 对 要 寻找 什么 并 没有 明确 的 想法 。 通 常 ， 
EDA 技术 是 交互 式 的 〈interactive) RACA (visual), 对 于 维 数 比 较 低 的 数据 集 来 说 ， 
有 很 多 种 有 效 的 图 形 化 显示 方法 。 但 随 着 维 数 〈 变 量 的 个 数 p 的 增多 ， 可 视 化 变 得 越 来 越 
困难 。 当 p 大 于 3 或 4 时 ， 可 以 产生 数据 低 维 投影 的 投影 技术 例如 主要 分 量 分 析 〉 是 非常 
有 价值 的 。 数 量 很 大 的 数据 集 可 能 不 容易 被 有 效 的 可 视 化 ， 然 而 ， 可 以 使 用 缩放 和 明细 数据 
的 思想 来 显示 或 总 结 “ 较 低 分 辨 率 ” 的 数据 样本 (以 可 能 丢失 重要 细节 为 代价 )。 以 下 是 一 
些 EDA 应 用 的 例子 : 


o 与 饼 图 相似 ， 锯 齿 图 (coxcomb》 也 切 分 一 个 圆 。 然 而 在 饼 图 中 扁 形 的 角度 不 同 ; 而 
在 锯齿 图 中 鹿 形 的 半径 不 同 。 弗 洛 伦 斯 。 南 丁 格 尔 〈EFlorence Nightingale) 在 伦敦 及 
其 附近 的 军事 医院 中 使 用 这 种 图 来 显示 死亡 率 (Nightingale，1858)。 


@ 1856 年 ，John Bennett Lawes 在 英国 洛桑 实验 站 (Rothamsted Experimental Station) © 
附近 投资 购置 了 很 多 土地 。 至 今 这 些 地 带 依然 没有 接触 化 肥 和 受 其 他 人 工 方式 的 影 
响 。 这 些 区 域 提供 了 不 同 植物 物种 在 不 受 影响 的 情况 下 进化 和 竞争 的 丰富 数据 。 有 
些 科学 家 用 主 分 量 分 析 (principal components analysis) 来 显示 反映 不 同 作物 相对 产 
量 的 数据 (Digby and Kempton, 1987, p.59). 

@ iB, Becker, Eick 和 Wilks (1995) 描述 了 使 用 复杂 的 立体 显示 来 可 视 化 随时 间 变 
化 的 长 途 电话 网 络 模式 〈 超 过 12 000 个 连接 )。 

2. HRE (descriptive modeling) (H 9 章 )， 描 述 模型 的 目标 是 描述 数据 〈 或 产生 数 
据 的 过 程 ) 的 所 有 特征 。 这 样 的 例子 包括 为 数据 的 总 体 概率 分 布 建 模 (密度 估计 (density 
estimation)); 把 p 维 空间 划分 成 组 ( 聚 类 分 析 和 区 隔 (cluster analysis and segmentation )); 
以 及 描述 变量 间 的 关系 〈 依 赖 建 模 (dependency modeling))。 例 如 在 区 隔 分 析 中 ， 目 标 是 把 
相似 的 记录 分 成 一 组 ， 比 如 商业 数据 库 的 市 场 区 隔 。 这 样 做 的 目的 是 把 记录 分 成 均匀 同 质 的 
(homogeneous) 小组， 以 便 使 相似 的 人 《如 果 记 录 是 指 人 的) 被 分 到 同一 组 。 这 可 以 使 广 
告 商 或 销售 者 可 以 把 他 们 的 促销 策略 指向 最 可 能 响应 的 人 群 ， 以 提高 效率 。 这 里 分 成 的 组 数 
是 由 研究 者 决定 的 ， 没 有 对 错 之 分 。 这 与 聚 类 分 析 不 同 ， 在 聚 类 分 析 中 目标 是 发 现 数据 ( 例 
如 科研 数据 库 ) 中 的 “自然 ”群体 。 描 述 建 模 已 经 被 应 用 到 很 多 领域 。 

© 区 隔 已 经 被 广泛 而 且 成 功 地 应 用 于 市 场 营销 领域 ， 根 据 购 买 模式 和 年 龄 、 收 入 等 人 

口 统计 数据 把 客户 分 成 均匀 同 质 的 小 组 CWedel and Kamakura, 1998). 

© 聚 类 分 析 已 经 被 广泛 应 用 于 精神 病 研究 领域 以 建立 精神 病 的 疾病 分 类 。 例 如 ，Everitt， 
Gourlay and Kendell (1971) 应 用 这 种 方法 对 住院 的 精神 病 患者 进行 采样 ， 他 们 的 报 
告 指 出 〈 很 多 发 现 之 一 )“ 所 有 四 种 分 析 都 产生 了 一 个 主要 由 精神 压抑 患者 组 成 的 聚 
类 。” 

o 聚 类 技术 已 经 被 用 于 分 析 地 球 北极 大 气 层 的 长 期 气候 变化 。 根 据 从 1948 年 开始 每 天 

记录 的 数据 来 看 ， 这 种 变化 主要 受 三 个 循环 的 空间 压力 (recurring spatial pressure) 
Fist GRAS) 支配 (进一步 的 讨论 请 参见 Cheng and Wallace (1993) 和 Smyth, Ide, 
and Ghil (1999)). 

3. FMI (predictive modeling): 分 类 和 回归 (第 10 章 和 第 11 章 )， 预 测 建 模 的 目 
标 是 建立 一 个 模型 ， 这 个 模型 允许 我 们 根据 已 知 的 变量 值 来 预测 其 他 某 个 变量 值 。 在 分 类 中 ， 
被 预测 的 变量 是 范畴 型 的 ， 而 在 回归 中 被 预测 的 变量 是 数量 型 (quantitative) 的 。 这 里 “ 预 
测 ” 这 个 词 是 取 它 的 一 般 含义 ， 根 本 不 带 有 任何 时 间 延 续 性 的 上 暗示。 所以， 我们 可 以 预测 将 
来 某 一 天 股票 的 市 值 ， 或 预测 哪 一 匹 马 会 赢得 比赛 ， 我 们 也 可 以 预测 患者 的 病情 ， 或 焊接 的 
牢固 程度 。 在 统计 和 机 器 学 习 中 人 们 已 经 开发 出 了 大 量 的 方法 来 解决 预测 建 模 问题 ， 而 且 这 
一 领域 的 工作 已 经 取得 了 重大 理论 进展 ， 并 加 深 了 对 深层 推理 问题 的 理解 。 预 测 和 描述 间 的 
关键 区 别 是 预测 的 目标 是 唯一 的 变量 (例如 市 值 、 疾 病 分 类 、 牢 固 程度 )， 而 描述 问题 的 模 
型 中 并 不 以 任何 单一 的 变量 为 中 心 。 预 测 模型 的 例子 如 下 : 

@ Fayyad, Djorgovski, and Weir (1996) 的 SKICAT 系统 使 用 树 结构 表示 建立 了 一 个 分 





O BE: 世界 最 著名 和 最 古老 的 的 农作物 和 农业 研究 机 构 , 建立 于 1843 年 ， 现 为 英国 农作物 研究 所 (Institute of Arable Crops 
Research) 的 主要 部 分 〔 简 称 为 IACR-Rothamasted)。1842 年 John Bennett Lawes 在 英国 获得 过 磷酸 盐 专利 ，1843 年 他 
和 另 一 位 农业 化 学 家 一 起 创立 此 试验 站 。 


一 一 一 一 一 一 


类 树 ， 这 个 分 类 树 可 以 根据 40 维 的 特征 向 量 分 类 星体 和 星系 ， 并 且 做 的 和 人 类 的 专 
家 一 样 好 。 这 个 系统 常年 被 用 来 对 天 空 数 字 图 像 中 的 上 百 万 星体 和 星系 进行 自动 分 
类 。 

@ ATAT 的 研究 人 员 开 发 了 一 个 系统 , 用 来 跟踪 美国 的 所 有 35 000 万 个 电话 号 码 (Cortes 

and Pregibon，1998)。 他 们 使 用 回归 技术 建立 了 一 个 模型 ， 这 个 模型 可 以 估计 出 一 个 
电话 号 码 位 于 商业 机 构 还 是 居民 住宅 的 概率 。 
4. 寻找 模式 和 规则 (第 13 章 ): 上 面 列 出 的 三 类 任务 都 致力 于 建立 模型 。 还 有 一 些 数 
据 挖掘 应 用 是 致力 于 模式 探测 的 。 一 个 例子 是 欺诈 探测 ， 做 法 是 寻找 明显 不 同 于 其 他 点 的 数 
据点 ， 并 查 出 这 些 数据 点 所 属 的 不 同 交易 类 型 ， 然 后 通过 探测 这 些 包 含 特殊 交易 的 空间 区 域 
来 查 出 欢 诈 行为 。 另 一 个 应 用 是 在 天 文 方面 探测 异常 的 星体 或 星系 ， 目 的 是 发 现 以 前 未 知 的 
对 象 。 还 有 一 个 应 用 就 是 在 交易 数据 库 中 发 现 频繁 出 现 的 商品 组 合 〈 比 如 日 常用 品 经 常 被 一 
起 购买 )。 这 个 问题 已 经 吸引 了 很 多 数据 挖掘 者 的 注意 力 ， 而 且 已 经 采用 基于 关联 规则 
Cassociation rule) 的 算法 技术 来 解决 这 样 的 问题 。 
这 里 的 一 个 重要 问题 是 如 何 决定 哪个 因素 真正 导致 了 异常 行为 ， 也 就 是 统计 学 家 们 所 说 
的 孤立 点 检测 Coutlier detection) 问题 。 在 高 维 情况 下 ， 这 会 变 得 更 加 困难 。 背 景 领域 的 知 
识 和 人 类 的 解释 可 能 是 最 宝贵 的 。 利 用 模式 和 规则 发 现 技术 的 数据 挖掘 系统 的 实例 包括 ; 
@ 美国 的 职业 篮球 比赛 会 常规 性 地 提供 每 场 比赛 的 详细 记录 ， 包 括 在 什么 时 间 谁 以 何 
种 姿势 投篮 ， 谁 得 分 ， 谁 传 球 给 谁 等 等 。Bhandari etal. (1997) 的 超级 侦察 (Advanced 
Scout) 系统 从 这 些 记 录 中 搜索 类 似 规则 的 模式 ， 目 的 是 发 现职 业 教 练 可 能 注意 不 到 
的 有 用 信息 片段 (例如,“ 当 选手 XX 在 场 上 时 选手 Y 的 投篮 准确 率 从 75% 下 降 到 
30%”。) 1997 年 这 个 系统 被 美国 的 多 家 职业 篮球 队 使 用 。 

@ 在 美国 ， 咨 用 蜂窝 电话 估计 使 电话 行业 每 年 损失 几 亿 美元 。Fawcett and Provost (1997) 
描述 了 一 个 应 用 ， 该 应 用 通过 规则 学 习 算法 从 庞大 的 用 户 事务 数据 库 中 发 现 盗 用 行为 
的 特征 。 根 据 报告 ， 利 用 这 种 方法 建立 的 系统 比 现 有 的 手工 检测 欺诈 方 法 精度 更 高 。 
5. 根据 内 容 检索 (第 14 5): 这 种 情况 下 ， 用 户 有 一 种 感 兴趣 的 模式 并 且 希 望 在 数据 
集中 找到 相似 的 模式 。 这 种 任务 对 于 文本 和 图 像 数据 集合 应 用 最 普遍 。 对 于 文本 ， 模 式 可 能 
是 一 系列 关键 字 ， 用 户 希 望 在 庞大 的 可 能 相关 的 文档 集合 中 《例如 网 页 ) 寻找 相关 的 文档 。 
对 于 图 像 ， 用 户 可 能 有 一 幅 样本 图 像 、 一 幅 图 像 的 草图 、 或 一 幅 图 像 的 描述 ， 然 后 希望 从 庞 
大 的 图 像 集合 中 发 现 类 似 的 图 像 。 无论 对 于 两 种 情况 中 的 哪 一 种 , 相似 性 的 定义 都 非常 关键 ， 
但 搜索 策略 的 细节 也 很 重要 。 
检索 系统 有 很 多 大 规模 应 用 的 例子 ， 包 括 : 
@ 在 网 络 中 ， 检 索 方 法 被 用 来 定位 文档 ， 就 像 Brin and Page (1998) 的 Google 系统 
(www.google.com) 那样 。Google 系统 使 用 了 被 称 为 “PageRank” 的 数学 方法 来 基 
于 链接 模式 估计 各 个 网 页 的 相对 重要 性 。 

© IBM 的 研究 人 员 开 发 了 一 个 称 为 QBIC (“根据 图 像 内 容 查 询 (Query by Image 
Content)”) 的 系统 ， 这 个 系统 允许 用 户 使 用 交互 的 方式 搜索 庞大 的 图 像 数 据 库 ， 支 
持 以 像 颜色 、 纹 理 和 相对 位 置信 息 这 样 的 内 容 描述 提出 查询 〈Flickner et al., 1995). 

尽管 上 面 的 五 种 任务 彼此 间 有 明显 的 差异 ， 但 它们 也 有 很 多 共同 的 特征 。 例 如 ， 很 多 任 
务 都 具有 “任意 两 个 数据 向 量 间 的 相似 性 或 者 距离 ”的 概念 。 还 有 一 个 共同 点 是 评分 函数 的 
思想 (用 来 评估 一 个 模型 或 模式 拟 合 数据 的 好 坏 程 度 )， 不 过 对 于 不 同类 型 的 任务 ， 上 有 具体 的 
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函数 形式 往往 有 很 大 的 差异 。 另 外 很 明显 的 一 点 是 ,不 同 的 任务 需要 不 同 的 模型 和 模式 结构 ， 
就 像 不 同 种 类 的 数据 需要 不 同 的 结构 一 样 。 


1.5 ”数据 挖掘 算 法 的 组 件 


前 面 一 节 中 我 们 已 经 列 出 了 数据 挖掘 所 针对 的 基本 任务 类 型 。 现 在 我 们 开始 考虑 该 如 何 
完成 这 些 任务 。 我 们 认为 ， 针 对 这 些 任务 的 数据 挖掘 算法 具有 以 下 四 个 基本 组 件 ; 

1. 模型 或 模式 结构 :决定 要 从 数据 中 寻找 的 潜在 结构 或 函数 形式 (第 6 章 )。 

2. 评分 函数 : 鉴定 一 个 已 拟 合 模型 的 质量 (第 7 章 )。 

3. 优化 和 搜索 方法 : 优化 评分 函数 并 对 不 同 的 模型 和 模式 结构 进行 搜索 第 8 章 )。 

4. 数据 管理 策略 :在 搜索 和 优化 期 间 高 效 地 处 理 数据 访问 问题 (第 12 章 )。 

我 们 已 经 讨论 了 模型 和 模式 间 的 差异 。 在 这 一 节 的 余下 部 分 我 们 讨论 数据 挖掘 算法 的 其 
他 三 个 组 件 。 


1.5.1 评分 函数 


评分 函数 对 一 个 模型 或 参数 结构 拟 合 给 定数 据 集 的 效果 进行 量化 。 在 理想 情况 下 ， 最 佳 
的 评分 函数 应 该 精确 地 反映 出 特定 预测 模型 的 效果 《〈 也 就 是 期 望 模型 所 带 来 的 真正 效益 )。 
然而 在 实践 中 ， 往 往 难以 精确 地 确定 预测 模型 的 真正 效果 。 所 以 ， 经 常 使 用 简单 的 、“ 通 用 
的 ”评分 函数 ， 比 如 最 小 平方 以 及 分 类 精度 。 

如 果 没 有 某 种 形式 的 评分 函数 ， 我 们 就 无 法 说 出 一 个 模型 是 否 比 另 一 个 更 好 ， 或 者 到 底 
如 何 为 模型 的 参数 选择 一 套 好 的 参数 值 。 为 了 实现 这 个 目的 , 广泛 使 用 了 以 下 几 种 评分 函数 : 
似 然 (likelihood)、 误 差 平 方 和 以 及 错误 分 类 率 (后 者 用 于 有 指导 的 分 类 问题 )。 例 如 著名 的 
误差 平方 评分 和 函数 是 这 样 定义 的 : 


YOW@-5@y (1.1) 
i=l 
其 中 y() 为 被 预测 的 n 个 目标 值 之 一 ，1 志 i 筷 n，5 (i) 为 我 们 作出 的 预测 值 〈 通 常 它 是 
关于 供 预 测 的 其 他 “输入 ”变量 值 和 模型 参数 的 函数 )。 
值得 注意 的 是 ， 不 仅 要 考虑 不 同 评分 函数 理论 上 的 合适 性 ， 还 应 该 通过 应 用 实践 来 检验 
它们 。 打 个 比方 来 说 ， 最 有 可 能 拟 合 数据 的 模型 可 能 是 很 理想 的 ， 但 如 果 估 计 它 的 参数 需要 
几 个 月 的 计算 时 间 ， 那 么 它 也 就 没有 什么 价值 了 。 同 样 ， 特 别 容 易 受 数据 中 的 微小 变化 影响 
的 评分 函数 也 不 可 能 有 很 高 的 价值 ( 它 的 用 途 依赖 于 研究 的 目标 )。 举 例 来 说 ， 如 果 几 个 极 
端 情况 值 会 导致 对 某 个 模型 参数 的 估计 疯狂 变化 ， 那 么 一 定 要 提高 警惕 ， 一 个 数据 集 通 常 是 
从 大 量 的 可 能 数据 集中 选取 的 ， 那 么 在 其 他 数据 集中 这 些 极端 情况 值 就 有 可 能 会 有 所 不 同 。 
而 使 用 对 极端 情况 不 敏感 的 鲁 棒 (robust) 方法 就 可 以 避免 这 样 的 问题 。 


1.5.2 ”优化 和 搜索 方法 


评分 函数 衡量 了 提出 的 模型 或 模式 多 好 地 匹配 了 数据 的 各 种 特征 。 通 常 这 些 模型 或 模式 
是 以 各 种 形式 的 结构 来 描述 的 ， 有 时 还 带 有 未 知 的 参数 。 优 化 和 搜索 的 目标 就 是 决定 这 些 结 
构 和 参数 值 ， 以 使 评分 函数 达到 最 小 值 〈 或 最 大 值 ， 取 决 于 具体 情况 )。 发 现 模型 中 的 最 佳 
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参数 值 的 任务 通常 被 称 为 优化 (或 估计 ) 问题 。 从 庞大 的 潜在 模式 族 中 发 现 感 兴趣 的 模式 ( 比 
如 规则 ) 的 任务 通常 被 当 作 组 合 搜索 问题 ， 而 且 经 常 利用 启发 式 搜索 技术 来 实现 这 类 问题 。 
在 线性 回归 中 ， 经 党 通过 最 小 化 误差 平方 评分 函数 〈 模 型 的 贷 测 值 与 被 预测 变量 的 观测 值 之 
间 的 误差 平方 和 ) 来 发 现 预 测 规则 。 这 样 的 评分 函数 易于 进行 各 种 数学 操作 ， 而 且 可 以 用 代 
数 方法 得 到 使 它 最 小 化 的 模型 。 相 反 ， 像 错误 分 类 率 〈 用 于 有 指导 分 类 ) 这 样 的 评分 函数 就 
难以 用 解析 方法 来 最 小 化 。 举 例 来 说 ， 因 为 它 本 质 上 是 不 连续 的 ， 那 么 强大 的 微 积分 方法 就 
无 法 发 挥 作用 。 

当然 ， 尽 管 我 们 可 以 使 用 一 个 评分 函数 使 一 个 模型 或 模式 很 好 的 拟 合 数据 ， 但 在 很 多 时 
候 这 不 是 真正 的 目标 。 正 像 上 面 所 指出 的 ， 我 们 的 目的 经 常 是 要 泛 化 (generalize》 到 可 能 出 
现 的 新 数据 (新 的 客户 ， 新 的 化 学 制品 等 等 )， 而 且 过 度 拟 合 数据 库 中 的 数据 可 能 降低 对 新 
案例 的 预测 精度 。 在 本 章 的 后 面 我 们 将 讨论 这 个 问题 。 


1.5.3 ”数据 管理 策略 


数据 挖掘 算法 的 最 后 一 个 组 件 是 数据 管理 策略 : 存储 、 索 引 和 访问 数据 的 方式 。 统 计 和 
机 器 学 习 中 的 大 多 数 著名 数据 分 析 算 法 都 是 假定 可 以 在 内 存 (RAM) 中 迅速 高 效 地 访问 到 
所 有 数据 个 体 。 尽 管 主 存储 器 技术 迅速 提高 ， 但 第 二 级 〈 磁 盘 ) 和 第 三 级 〈 磁 带 ) 存储 技术 
也 在 以 相同 的 速度 提高 ,因此 很 多 海量 数据 集 仍然 主要 被 存储 在 磁盘 或 磁带 上 , 现 有 的 RAM 
是 容纳 不 下 的 。 所 以 访问 海量 数据 集 必然 要 付出 一 定 开销 ， 因 为 不 可 能 使 所 有 的 数据 一 下 子 
都 可 以 被 中 央 处 理 器 访问 到 。 

已 经 开发 出 的 很 多 数据 分 析 算法 并 没有 明确 地 对 数据 管理 策略 作出 说 明 。 对 于 过 去 的 相 
对 较 小 的 数据 集 来 说 这 样 做 还 可 以 ， 但 是 如 果 现 在 把 很 多 算法 例如 分 类 和 回归 树 算 法 ) 的 
传统 版 本 直接 应 用 到 主要 存储 在 第 二 级 存储 器 中 的 数据 上 ， 性 能 往往 变 得 很 差 。 

数据 库 领 域 所 关心 的 是 开发 索引 方法 、 数 据 结构 以 及 如 何 既 高 效 又 可 靠 地 检索 数据 的 查 











询 算法 。 他 们 已 经 开发 出 了 很 多 技术 支持 在 庞大 的 数据 集 上 相当 简单 地 进行 计数 〈 聚 合 ) 操 


作 ， 以 生成 报表 。 然 而 ， 最 近 几 年 来 ， 人 们 已 经 开始 开发 支持 “ 原 语 (primitive)” 数 据 访 
问 操作 的 技术 ， 这 是 实现 高 效率 数据 挖掘 算法 〈 例 如 用 于 在 高 维 空间 中 检索 相 邻 点 的 树 结构 
索引 算法 ) 所 必需 的 。 


1.6 ”统计 和 数据 挖掘 的 相互 关系 


单纯 的 统计 技术 已 经 不 足以 解决 某 些 日 益 复杂 的 数据 控 据 问题， 特别 是 那些 涉及 海量 数 
据 集 的 问题 。 然 而 统计 在 数据 挖掘 中 承担 着 非常 重要 的 角色 : 在 任何 数据 挖 气 项 目 中 它 都 是 
一 个 必要 的 部 分 。 这 一 节 我 们 讨论 一 下 传统 统计 和 数据 挖掘 的 相互 关系 。 

对 于 庞大 的 数据 集 〈 特 别 是 非常 庞大 的 数据 集 )， 我 们 可 能 无 法 轻易 知道 数据 中 的 规律 ， 
即使 是 非常 显而易见 的 。 对 数据 进行 简单 的 目测 不 是 办 法 。 这 意味 着 对 于 很 大 的 数据 集 ， 我 
们 需要 周密 完善 的 搜索 和 分 析 方法 来 弄 清 对 于 小 数据 集 可 以 立刻 得 到 的 特征 。 此 外 ， 正 如 我 
们 前 面 所 讲 到 的 ， 很 多 情况 下 数据 挖掘 的 目标 是 要 得 到 针对 现 有 数据 之 外 的 某 种 推理 。 例 如 ， 
在 一 个 天 体 数据 库 中 ， 我 们 可 能 想 要 得 到 这 样 一 个 结论 “类 似 这 个 天 体 的 所 有 对 象 的 行为 是 
这 样 的 ”， 或 许 附带 一 个 概率 限制 。 类 似 地 ， 我 们 可 以 断定 一 个 国家 的 某 个 地 区 的 电话 呼叫 
呈现 某 种 特定 的 模式 。 当 然 ， 需 要 我 们 作出 论断 的 不 可 能 是 数据 库 中 的 某 个 呼叫 ， 而 是 希望 
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能 够 预测 将 来 呼叫 的 模式 。 数 据 库 提供 了 用 来 建立 模型 或 搜索 模式 的 对 象 集合 ， 但 最 终 的 目 
的 一 般 不 是 描述 这 些 数据 。 在 大 多 数 情 况 下 目标 是 描述 数据 产生 的 一 般 过 程 ， 以 及 描述 可 能 
由 同样 的 过 程 产生 的 其 他 数据 集 。 所 有 这 些 都 意味 着 有 必要 避免 模型 或 模式 与 现 有 的 数据 匹 
配 得 太 紧密 ， 要 知道 现 有 的 数据 集 仅仅 是 可 能 数据 中 的 一 部 分 ， 所 以 我 们 不 希望 模型 与 现 有 
数据 的 特异 性 太 接 近 。 换 句 话 来 讲 ， 就 是 必须 避免 过 度 拟 合 (overfitting〉 给 定 的 数据 ， 而 
是 要 发 现 可 以 很 好 地 泛 化 到 潜在 将 来 数据 的 模型 或 模式 。 在 选取 用 来 选择 模型 或 模式 的 评分 
函数 时 应 该 考虑 这 一 点 。 在 第 7 章 和 第 9 章 到 第 11 章 我 们 将 更 详细 地 讨论 这 个 问题 。 虽 然 
我 们 是 从 数据 挖掘 角度 讨论 这 个 问题 ， 但 是 对 于 统计 这 个 问题 也 是 很 重要 的 ， 其 至 一 些 人 把 
它 当 作 是 统计 学 科 的 一 个 定义 特征 。 

既然 统计 思想 和 方法 对 于 数据 控 气 如 此 重要 ， 那 么 就 有 一 个 很 自然 的 问题 是 这 两 者 之 间 
到 底 有 什么 差异 。 数 据 挖掘 就 是 针对 非常 庞大 数据 集 的 探索 性 统计 ， 还 是 除了 探索 性 数据 分 
析 外 还 有 更 多 的 内 容 ? 回答 是 肯定 的 一 一 数据 挖掘 有 更 多 的 内 容 。 

经 典 的 统计 应 用 和 数据 挖掘 的 基本 差异 是 数据 集 的 大 小 。 对 于 一 个 传统 的 统计 学 家 ， 一 
个 “大 ”的 数据 集 可 能 包含 几 百 或 几 千 个 数据 点 。 然 而 对 于 致力 于 数据 挖掘 的 人 来 讲 几 百 万 
其 至 几 十 亿 的 数据 点 并 不 意外 一 一 GB 甚至 TB 数量 级 的 数据 库 也 不 少见 。 生 活 中 很 多 地 方 
都 有 这 样 的 大 数据 库 。 例 如 ， 美 国 的 零售 商 沃尔玛 每 天 完成 2 千 万 笔 交 易 (Babcock, 1994), 
1998 年 形成 了 一 个 11TB 的 客户 交易 数据 库 (Piatetsky-Shapiro，1999)。AT&T 有 1 亿 个 客 
户 ， 它 的 长 途 网 每 天 有 3 亿 次 的 呼叫 。 每 次 呼叫 的 特征 被 更 新 到 一 个 数据 库 ， 用 以 建立 美国 
所 有 电话 号 码 的 模型 (Cortes and Pregibon, 1998). Harrison (1993) 报道 说 美孚 石油 公司 
(Mobil Oil) 打算 要 存储 超过 100TB 的 有 关 石 油 探测 的 数据 。Fayyad，Dijorgovski，and Weir 
(1996) 描述 的 “ 帕 洛 马 天 文 台数 字 化 天 体 调查 (Digital Palomar Observatory Sky Survey)” 
中 涉及 3TB 的 数据 。 正 在 进行 的 Sloan 天 体 数字 化 调查 将 产生 大 约 40T 字 节 数据 ， 最 终 要 
缩减 为 含有 400GB 的 包含 3x10: 个 天 体 的 目录 (Szalay et al.，1999)。 美 国 国家 航空 和 宇宙 
航行 局 (NASA) 的 地 球 观 测 系统 设计 为 每 小 时 产生 几 个 GB 的 原始 数据 (Fayyad， 
Piatetsky-Shapiro and Smyth，1996)。 人 类 基因 工程 要 完成 整个 人 体 基因 的 测序 可 能 要 产生 
超过 3.3x10? 个 核 苷 酸 的 数据 集 (Salzberg，1999)。 这 样 大 容量 的 数据 集 带 来 了 统计 学 家 使 
用 传统 方法 无 法 处 理 的 一 些 问题 。 

可 以 通过 采样 来 简化 海量 数据 集 (如果 目 标 是 建立 模型 是 可 以 的 ， 但 是 如 果 目 标 是 模式 
探测 就 不 合适 了 ), 也 可 以 使 用 可 适应 方法 (adaptive), 或 者 用 充分 统计 量 (sufficient statistics) 
来 总 结 记录 。 例 如 ， 在 标准 的 最 小 平方 回归 问题 中 ， 我 们 可 以 用 所 有 记录 的 和 、 平 方 和 以 及 
乘积 的 和 来 代替 针对 每 个 变量 的 大 量 评分 一 一 这 样 就 足以 计算 出 回归 系数 ， 而 不 管 有 多 少 条 
记录 。 随 着 记录 或 变量 数量 的 上 升 ， 考 虑 以 计算 时 间 表 示 算 法 规模 的 变化 是 很 重要 的 。 例 如 ， 
搜索 最 佳 变量 子 集 (根据 某 个 评分 函数 ) 的 穷 举 方法 仅 在 一 定 限度 内 是 可 行 的 。 如 果 有 p 个 
变量 ， 那 么 就 要 考虑 27-1 个 可 能 的 变量 子 集 。 对 前 一 节 提 到 的 高 效 搜索 方法 来 说 如 何 放 宽 
这 个 限制 是 至 关 重 要 的 。 

当 有 很 多 变量 时 会 产生 更 多 的 困难 。 很 重要 的 问题 之 一 是 维度 效应 (curse of dimen- 
sionality): 空间 中 单元 格 (unit cell) 的 数量 随 着 变量 个 数 的 上 升 按 指数 增长 。 例 如 ， 考 虑 
一 个 二 进 制 变量 ， 要 得 到 对 两 个 单元 格 的 合理 估计 精度 我 们 可 能 希望 对 每 个 单元 格 有 10 个 
观测 ， 那 么 共有 20 个 。 如 果 有 两 个 二 进 制 变量 (也 就 是 四 个 单元 格 )， 那 么 就 需要 40 个 观 
测 。 如 果 有 10 个 二 进 制 变量 ， 那 么 就 需要 10240 个 观测 ， 要 是 20 个 变量 就 是 10485760 个 
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了 。 维 度 过 高 的 恶果 是 陷入 如 下 困境 : 在 高 维 空间 中 如 果 没 有 天 文 数字 大 小 的 数据 库 《〈 事 实 
上 ， 需 要 的 数据 量 非常 大 ， 以 致 于 在 这 样 的 数据 挖掘 应 用 中 GB 量 级 的 数据 也 显得 苍白 无 力 ) 
就 无 法 找到 概率 密度 的 精确 估计 。 在 高 维 空间 中 ， 相 邻 点 可 能 离 得 很 远 。 这 不 仅仅 是 操纵 其 
中 的 大 量变 量 的 困难 ， 而 且 关 系 到 能 否 实现 目标 。 在 这 种 情况 下 ， 有 必要 在 预先 选取 模型 时 
增加 一 些 额外 的 约束 〈 例 如 ， 假 定 为 线性 模型 ) 。 

访问 庞大 的 数据 集会 产生 很 多 问题 。 统 计 学 家 们 传统 上 理解 的 “平面 ”数据 文件 一 一 行 
表示 对 象 ， 列 表 式 变量 可 能 和 数据 的 实际 存储 方式 大 不 相同 〈 比 如 前 面 描述 的 文本 和 网 
络 交易 数据 集合 )。 在 很 多 种 情况 下 ， 数 据 是 分 布 存储 在 多 台 计 算 机 上 的 。 从 这 种 分 散 的 数 
据 中 获得 一 个 随机 样本 不 再 是 一 件 微不足道 的 事 。 如 何 定义 采样 框架 以 及 访问 数据 需要 多 长 
时 间 都 是 很 重要 的 问题 。 

还 有 更 糟糕 的 是 很 多 时 候 数 据 集 是 不 停 变化 的 一 一 举例 来 说 ， 就 像 电 话 呼叫 记录 或 用 电 记录 
那样 。 分 布 的 或 者 不 断 变 化 的 数据 可 能 成 倍 地 增加 数据 集 的 大 小 并 改变 需要 解决 的 问题 的 属性 。 

除了 数据 集 的 大 小 可 能 导致 很 多 困难 外 ， 标 准 统计 应 用 中 不 经 常 遇 到 的 其 他 问题 也 可 能 如 
此 。 我 们 已 经 指出 数据 挖掘 通常 是 数据 分 析 的 次 级 过 程 ， 也 就 是 说 数据 本 来 是 为 了 其 他 目的 而 
收集 的 。 相 反 ， 很 多 统计 工作 是 本 位 分 析 (primary analysis): 带 着 特定 的 问题 采集 数据 ， 然 后 
分 析 数 据 回答 这 个 问题 。 统 计 学 中 甚至 包括 试验 设计 和 调查 设计 这 样 的 子 学 科 一 一 整个 领域 的 
专家 都 致力 于 寻找 最 好 的 方式 采集 数据 以 回答 特定 的 问题 。 当 数据 被 用 于 搜集 数据 的 本 来 目的 
之 外 的 问题 时 ， 这 些 数据 可 能 不 能 理想 地 适合 这 些 问 题 。 有 时 数据 集 是 整个 总 体 〈 例 如 ， 一 类 
化 学 品 中 的 所 有 化 学 品 )， 所 以 标准 统计 中 的 推理 思想 已 不 适用 了 。 即 使 数据 集 不 是 整个 群体 ， 
也 经 常 是 顺便 的 (convenience) 或 机 会 的 〈opportunity) 样本 ， 而 不 是 随机 样本 。( 例 如 ， 问 题 
中 的 记录 很 可 能 是 因为 它们 最 容易 被 测量 或 覆盖 一 个 特定 时 期 而 被 收集 起 来 的 。) 

除了 数据 采集 方式 导致 的 问题 ， 还 有 发 生 在 庞大 数据 集中 的 失真 问题 一 一 包括 残缺 值 、 
污染 和 数据 损坏 。 很 少 有 哪个 数据 集 不 存在 这 些 问 题 。 以 至 于 一 些 周密 的 建 模 方法 在 模型 中 
包括 一 个 部 分 来 描述 处 理 残 缺 值 或 数据 失真 问题 的 机 制 。 也 可 以 使 用 像 EM 算法 (在 第 8 章 
中 讨论 ) 这 样 的 估计 方法 或 者 插 补 (imputation) 方法 来 产生 与 可 能 使 用 的 残缺 值 具有 同样 
分 布 属性 的 人 工 模拟 数据 。 当 然 这 些 问题 在 标准 的 统计 应 用 中 也 存在 〈 尽 管 对 于 小 的 、 特 别 
搜集 的 数据 集 来 说 这 些 问 题 的 严重 程度 会 小 很 多 )， 但 基本 的 统计 教材 倾向 于 掩饰 它们 。 

概括 地 讲 ， 尽 管 数据 挖掘 确实 与 标准 统计 中 的 探索 性 数据 分 析 技 术 有 相当 大 的 重 登 ， 但 
数据 挖掘 面 临 着 很 多 新 的 问题 ， 这 主要 是 涉及 的 数据 集 大 小 和 数据 集 的 新 属性 所 导致 的 。 








1.7 ”数据 挖 握 打捞、 探查 还 是 垂钓 


作为 数据 挖掘 这 本 书 的 绪论 ， 如 果 不 介绍 一 下 历史 上 曾 使 用 的 对 数据 挖掘 的 称呼 ， 那 么 
就 不 完整 了 。 这 些 称呼 包括 “数据 挖掘 (data mining)”, “F ( dredging)”, “RA (snooping )” 
和 “垂钓 (fishing)”。 在 20 世纪 60 年 代 ， 随 着 计算 机 不 断 地 应 用 到 数据 分 析 领 域 ， 人 们 注 
意 到 ， 只 要 你 搜索 的 时 间 足 够 长 ， 就 总 能 发 现 好 的 拟 合 数据 集 的 某 个 模型 。 有 两 个 因素 对 这 
个 过 程 起 作用 :模型 的 复杂 度 和 可 能 模型 集合 的 大 小 。 

不 难 理解 ， 如 果 我 们 采用 的 模型 灵活 度 足够 高 (相对 于 现 有 数据 集 的 大 小 )， 那 么 我 们 
很 可 能 可 以 做 到 任意 好 (arbitrarily well》 的 拟 合 现 有 数据 。 然 而 ， 正 像 前 面 所 指出 的 ， 我 们 
的 目标 可 能 是 泛 化 到 现 有 数据 之 外 ， 一 个 很 好 拟 合 现 有 数据 的 模型 可 能 对 泛 化 这 个 目的 而 言 
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并 不 理想 。 而 且 ， 即 使 目标 就 是 拟 合 现 有 数据 (例如 ， 当 我 们 希望 产生 一 -个 描述 完整 群体 的 
数据 的 最 精确 总 结 )， 那 么 通常 更 倾向 于 选择 简单 的 模型 来 做 到 这 一 点 。 极 端 地 讲 ， 与 原始 
数据 复杂 度 等 价 的 模型 当然 完美 地 拟 合 它 自己 ， 但 这 几乎 没有 任何 意义 和 价值 。 

即使 使 用 一 种 相当 简单 的 模型 结构 ， 如 果 我 们 考虑 具有 这 种 基本 结构 的 足够 多 的 不 同 模 
型 ， 那 么 我 们 也 可 以 期 望 发 现 很 好 的 拟 合 。 例 如 ， 考 虑 从 预报 变量 X 来 预测 一 个 响应 变量 Y, 
X 是 从 可 供 选择 的 非常 庞大 的 变量 集合 Xo oo X 中 选取 的 ， 且 它们 都 与 了 无 关 。 由 于 数 
据 产 生 过 程 的 随机 变化 作用 ， 尽 管 在 了 和 任意 变量 X 之 间 不 存在 潜在 的 联系 ， 但 在 现 有 的 
数据 中 仍 会 显示 出 某 种 关系 。 接 下 来 搜索 过 程 便 会 发 现 变量 X 和 Y 之 间 有 紧密 的 联系 。 结 
果 ， 庞 大 的 搜索 空间 导致 发 现 了 本 来 不 存在 的 虚假 模式 ， 当 变量 XX 的 潜在 可 能 个 数 p 非常 庞 
大 而 且 样 本 尺寸 很 小 时 这 种 情况 尤其 严重 。 这 类 错误 的 更 熟悉 的 例子 还 有 媒体 中 流行 的 虚 
假 相 关 推论 ， 比 如 “发 现 ” 在 过 去 30 年 中 ， 当 美国 橄榄 球 超级 杯赛 的 冠军 来 自 某 个 联盟 时 ， 
一 种 股票 指数 在 下 一 个 月 就 会 上 涨 。 在 很 多 领域 都 有 大 量 的 相似 例子 ， 比 如 像 经 济 和 社会 科 
学 这 些 数据 一 般 相对 稀疏 但 匹配 数据 的 模型 或 理论 相对 充足 的 领域 。 例 如 ， 在 经 济 领 域 的 时 
间 序列 预测 中 ， 可 能 仅 有 较 短 时 间 跨 度 的 历史 数据 ， 但 却 有 大 量 的 经 济 指标 《潜在 的 预测 变 
量 )。Leinweber 提供 了 这 种 类 型 预测 的 一 个 特别 幽默 的 例子 , 他 得 到 了 对 著名 的 标准 普尔 500 
种 股票 指数 Standard and Poor 500) 年 值 几 乎 完美 的 预测 ， 方 法 是 把 这 个 指数 的 年 值 定义 为 
前 一 年 孟加拉 和 美国 的 黄油 产量 、 和 干酪 产量 和 绵羊 数量 年 值 的 函数 。 

这 种 “发 现 ”的 危险 是 为 统计 学 家 们 所 熟知 的 ， 过 去 他 们 把 这 种 泛泛 的 搜索 称 为 “数据 
控 气 ”或 “数据 打捞 ”一 一 使 用 这 些 术 语 来 表示 贬低 的 内 涵 。 当 数据 集 很 庞大 时 , :如果 分 析 
的 潜在 结构 空间 也 足够 大 ， 那 么 这 种 问题 的 严重 性 会 降低 ， 不 过 即使 这 样 仍 有 危险 存在 。 在 
模式 探测 中 这 种 风险 比 在 模型 拟 合 中 更 大 ， 因 为 根据 定义 ， 模 式 涉及 相对 更 少 的 实例 〈 也 就 
是 样本 尺寸 很 小 )。 因 为 如 果 我 们 为 了 搜索 仅 有 50 个 点 的 异常 结构 而 分 析 了 10 亿 个 数据 点 ， 
那么 我 们 很 有 可 能 探测 到 这 个 结构 。 

不 存在 可 以 解决 这 个 问题 的 简单 技术 ， 尽 管 已 经 研究 出 了 很 多 种 策略 ， 包 括 把 数据 分 成 
子 样本 ， 然 后 使 用 一 个 部 分 来 建立 模型 或 探测 模式 ， 再 用 另 一 部 分 来 验证 。 在 后 面 的 章节 中 
我 们 将 更 多 地 讲述 这 样 的 方法 。 然 而 最 终 的 答案 是 不 要 把 数据 挖 气 当 作 脱 离 数 据 内 涵 的 简单 
技术 来 运用 。 任 何 有 潜力 的 模型 或 模式 都 该 呈现 给 数据 拥有 者 ， 让 他 们 来 评估 它 的 有 趣 度 、 
价值 、 有 用 性 以 及 它 的 潜在 真实 性 。 
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由 于 计算 机 和 数据 采集 技术 的 进步 ， 我 们 已 经 积累 了 而 且 还 正在 积累 包含 G 字 节 或 者 
甚至 是 T 字 节 的 庞大 数据 集合 。 这 些 堆 积 如 山 的 数据 包含 了 可 能 很 有 价值 的 信息 。 问 题 是 如 
何 把 这 些 有 价值 的 信息 从 包围 它 的 大 量 枯燥 的 数字 中 提取 出 来 ， 从 而 使 数据 拥有 者 可 以 从 中 
取得 收益 。 数 据 挖掘 是 一 门 新 兴 的 学 科 ， 它 所 要 做 的 就 是 : 通过 得 分 这 些 数据 库 ， 对 它们 进 
行 总 结 ， 并 寻找 其 中 的 模式 。 

不 应 该 把 数据 挖掘 看 作 是 简单 的 一 次 性 操作 。 对 于 巨大 的 数据 集合 来 说 ， 考 察 和 分 析 它 
的 方式 是 没有 止境 的 。 随 着 时 间 的 推进 ， 新 的 结构 和 模式 类 型 可 能 引起 我 们 的 兴趣 ， 并 值得 
在 数据 中 寻找 它们 。 

数据 挖掘 已 经 受到 了 广泛 的 瞩目 ， 这 有 很 多 原因 : 它 是 一 门 新 的 技术 ， 针 对 新 的 问题 ; 
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对 于 寻找 商业 和 科研 中 的 有 价值 发 现 有 很 大 的 潜力 。 然 而 ， 我 们 不 应 该 期 望 它 可 以 回答 所 有 
的 问题 。 就 像 所 有 的 发 现 过 程 一 样 ， 数 据 挖 掘 的 成 功 具 有 幸运 (serendipity) 的 因素 。 尽 管 
数据 挖掘 提供 了 有 用 的 工具 ， 但 这 并 不 意味 着 必然 可 以 得 到 重要 、 有 趣 、 而 又 有 价值 的 结果 。 
所 以 我 们 必须 警惕 对 可 能 的 成 果 的 过 分 地 夸大 。 不 过 潜力 是 有 的 。 


1.9 补充 读物 


以 下 文献 对 数据 挖掘 作 了 简单 扼要 的 介绍 : Fayyad, Piatetsky-Shapiro and Smyth (1996); 
Glymour et al. (1997) 以 及 《ACM (美国 计算 机 学 会 ) 通讯 》 的 Vol. 39, No. 11 特刊 。Adriaans 
and Zantige (1996) 以 及 Weiss and Indurkhya (1998) 总 结 了 数据 挖掘 中 有 关 预 测 的 一 些 问 
Wi, Witten and Franke (2000) 从 机 器 学 习 〈 人 工 智能 ) 的 角度 讨论 了 数据 挖 气 ， 该 书面 向 
应 用 ， 可 读 性 非常 强 ，Han and Kamber (2000) 是 从 数据 库 角 度 编写 的 一 本 很 容易 理解 的 数 
据 挖 掘 教 材 。 针 对 商业 用 户 的 数据 挖掘 书籍 非常 多 ， 特 别 值得 一 提 的 是 Berry and Linoff 

(1997，2000)， 其 中 对 一 些 有 潜力 的 数据 挖掘 商业 应 用 提出 了 的 很 多 实践 性 很 强 的 建议 。 

Leamer (1978) 广泛 地 讨论 了 数据 打捞 的 危险 ，Lovell (1983) 就 这 一 主题 发 表 了 评论 。 

Hendry (1995, 15.1 节 〉 从 统计 的 角度 给 出 了 计量 经 济 学 家 对 数据 挖 据 的 看 法 。Hand et al. 
(2000) 以 及 Smyth (2000) 对 数据 挖掘 和 统计 作 了 比较 性 讨论 。Casti (1990, 192-193 页 
和 439 页 ) 简要 地 讨论 了 巧合 性 。 
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第 2 章 测量 和 数据 


2.1 简介 


我 们 的 目标 是 发 现存 在 于 “真实 世界 ”中 的 各 种 关系 ， 这 可 能 是 物理 上 世界、 商业 世界 、 科 
学 世界 、 也 可 能 是 其 他 某 个 概念 上 的 领域 。 然 而 在 探索 这 样 的 关系 时 ， 我 们 并 不 要 走出 去 直接 
观察 这 个 领域 ， 而 是 通过 描述 它 的 数据 来 进行 研究 。 所 以 ， 首 先 我 们 需要 明确 数据 的 含义 。 

数据 是 通过 把 感 兴 趣 领 域 里 的 实体 以 某 种 测量 过 程 映 射 到 符号 表示 得 到 的 ， 测 量 就 是 把 
实体 的 一 个 给 定 属性 与 一 个 变量 值 联系 起 来 。 对 象 间 的 关系 是 通过 变量 间 的 数值 关系 表示 
的 。 这 些 数值 表示 一 一 也 就 是 数据 项 一 一 是 以 数据 集 的 形式 存储 的 ， 这 些 数据 项 就 是 我 们 的 
数据 挖掘 活动 的 题材 。 

透彻 理解 测量 过 程 是 至 关 重 要 的 。 它 是 接 下 来 所 有 数据 分 析 和 数据 挖掘 活动 的 基础 。 我 
们 将 在 2.2 节 详 细 地 讨论 这 个 过 程 。 

我 们 在 第 1 章 中 提 到 ， 两 个 对 象 间距 离 的 概念 是 很 重要 的 。2.3 节 突 出 讨论 了 两 个 对 象 
间 的 距离 尺度 一 一 基于 对 这 些 对 象 的 测量 向 量 。 测 量 的 原始 结果 可 能 适合 也 可 能 不 适合 直接 
用 作 数 据 挖掘 ，2.4 节 简 要 地 讨论 了 分 析 前 如 何 转化 数据 。 

我 们 已 经 指出 ， 我 们 不 希望 数据 挖掘 活动 所 发 现 的 关系 就 是 对 采集 到 数据 的 生 搬 硬 套 
Cartifact)。 同 样 ， 我 们 也 不 希望 我 们 的 发 现 就 是 数据 的 定义 属性 ， 比 如 发 现 具有 同样 姓氏 
的 人 经 常生 活 在 同一 个 家 庭 算 不 上 什么 成 就 。2.5 节 中 我 们 简要 介绍 了 数据 图 式 (schema) 
一 一 数据 中 预先 存在 的 结构 一 一 的 思想 。 

没有 完美 的 数据 集 ， 庞 大 的 数据 集 更 是 如 此 。 测 量 误差 、 数 据 残 缺 、 采 样 失 真 、 人 为 错 
误 以 及 其 他 一 大 堆 因 素 都 可 能 损坏 数据 。 既 然 数据 挖掘 是 致力 于 探测 数据 中 的 未 知 模式 ， 那 
么 警惕 这 些 缺 陷 是 非常 重要 的 一 一 我 们 要 得 到 的 结论 不 该 是 建立 在 那些 反映 了 数据 搜集 或 录 
制 过 程 中 的 瑕 疫 的 模式 。2.6 节 针 对 记录 (或 实例 ) 和 单个 字段 (或 变量 ) 的 测量 讨论 了 数 
据 质量 问题 。2.7 节 讨 论 了 这 些 个 体 的 集合 (也 就 是 样本 〉 的 总 体质 量 。 

2.8 节 归 纳 了 本 章 的 要 点 ，2.9 节 推 荐 了 一 些 更 详细 的 读物 。 














2.2 测量 类 型 


可 以 按照 很 多 种 方式 来 对 测量 分 类 。 一 些 分 类 标准 是 从 被 测量 属性 的 特征 而 来 的 ， 还 有 
一 些 是 根据 测量 的 用 途 而 来 的 。 

为 了 阅 明 这 一 上 点， 我们 先 考虑 如 何 度 量 WEIGHT 属性 。 在 这 个 讨论 中 ， 我 们 使 用 大 写 
字母 代表 属性 ， 用 小 写字 母 代 表 它 对 应 的 变量 〈 映 射 到 测量 操作 所 产生 的 数字 的 结果 )。 即 
测量 WEIGHT 得 到 weight 的 值 。 为 了 更 加 具体 ， 设 想 我 们 有 一 堆 石 头 。 

首先 我 们 可 以 根据 WEIGHT 属性 来 排列 石头 。 例 如 我 们 可 以 这 么 做 ， 在 天 平 的 每 一 个 
托盘 上 放 一 块 石头 ， 观 察 天 平 倾斜 的 方式 。 根 据 这 个 过 程 ， 我 们 可 以 赋 给 每 一 块 石头 一 个 数 
字 ， 并 使 较 重 的 石头 对 应 较 大 的 数字 。 注 意 这 里 这 些 数字 只 代表 序号 。 一 块 石头 被 赋予 数字 
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4 另 一 块 石头 被 赋予 数字 2 并 不 代表 第 一 个 就 总 是 第 一 个 的 两 倍 重 。 我 们 完全 可 以 选取 某 个 
其 他 数字 表示 第 一 块 石 头 的 WEIGHT， 只 要 它 大 于 2。 通 常 ， 我 们 可 以 使 用 单调 〈 保 持 顺 序 ) 
变化 的 任意 数字 集合 ， 它 们 都 是 等 价 的 合理 赋值 。 我 们 仅 关心 石头 按 WEIGHT 属性 的 排列 
顺序 。 

我 们 可 以 进一步 探讨 前 面 的 例子 。 假 定 我 们 发 现 ， 当 我 们 放 一 块 大 的 石头 在 天 平 的 一 个 
托盘 上 ， 放 两 块 石头 在 另 一 个 托盘 上 使 天 平平 衡 了 。 从 某 个 角度 来 讲 两 个 小 石头 的 WEIGHT 
属性 合 起 来 等 价 于 一 个 大 石头 的 WEIGHT 属性 。 这 说 明 〈 很 自然 地 得 出 ) 我 们 可 以 用 这 种 
方式 赋 一 个 数字 给 石头 ， 也 就 是 说 赋 给 石头 的 序号 数字 不 仅 对 应 于 天 平 观测 到 的 序号 ， 同 时 
使 赋 给 两 块 小 石头 的 数字 之 和 与 赋 给 大 石头 的 数字 相等 。 也 就 是 说 这 两 块 较 小 石头 的 重量 等 
于 这 块 较 大 石头 的 重量 。 假 定 我 们 赋 给 较 小 的 两 块 石头 的 数字 是 2 和 3， 而 且 赋 给 较 大 石头 
的 数字 是 5S。 这 套 赋值 满足 了 顺序 要 求 和 属性 可 加 性 的 要 求 ， 但 如 果 分 别 赋值 为 4、6 和 10 
也 可 以 做 到 这 一 点 。 因 此 如 何 定义 对 应 属性 WEIGHT 的 变量 weight 还 存在 一 些 自由 度 。 

这 个 例子 说 明了 我 们 的 数字 表示 反映 了 我 们 所 研究 系统 的 试验 (empirical) 属性 。 按 
WEIGHT 属性 表示 的 石头 之 间 的 关系 与 测量 到 的 变量 weight 的 值 之 间 的 关系 对 应 。 这 个 表 
示 的 价值 在 于 它 人 允许 我 们 通过 这 个 数字 系统 来 研究 对 应 的 物理 系统 。 不 必 把 一 袋 袋 的 石头 弄 
来 弄 去 就 可 以 看 到 哪 一 袋 中 含有 最 大 的 石头 ， 哪 一 袋 的 石头 平均 重量 最 重 ， 等 等 。 

石头 的 例子 包括 了 两 种 实验 关系 : 石头 的 次 序 ， 这 是 根据 天 平 如 何 倾斜 来 决定 的 ， 以 及 
它们 的 结合 (concatenation ) 属性 两 块 石头 一 起 与 第 三 块 石头 平衡 。 其 他 的 实验 系统 可 
能 包括 少 于 或 多 于 两 个 的 实验 关系 。 次 序 关 系 是 最 普遍 的 ， 通 常 ， 如 果 一 个 实验 系统 仅 有 一 
个 关系 ， 那 就 是 次 序 关系 。 次 序 关 系 的 例子 还 有 医学 中 的 SEVERITY (严重 性 ) 属性 和 心理 
学 中 的 PREFERENCE (爱好 ) 属性 。 

当然 ， 一 些 属 性 甚至 没有 次 序 关 系 ， 例 如 属性 HAIR COLOR (RE), RELIGION CR 
教 信仰 )， 和 RESIDENCE OF PROGRAMMER 〈 程 序 员 的 住所 ) 都 没有 自然 的 次 序 。 但 也 
可 以 用 数字 来 表示 这 些 属性 的 “ 值 ”， 例 如 《blond = 1，black = 2，brown = 3 等 等 )， 但 是 被 
表示 的 实验 关系 仅 代表 颜色 的 不 同 (因而 被 表示 为 不 同 的 数字 )。 这 里 可 能 更 加 明显 地 看 到 
也 可 以 使 用 其 他 的 数字 集合 。 只 要 是 不 同 数字 对 应 不 同属 性 值 的 数字 集合 就 可 以 。 

既然 数字 赋值 是 不 唯一 的 ， 我 们 就 必须 找到 某 种 方法 来 限制 这 种 自由 性 一 一 否则 如 果 不 
同 的 研究 者 使 用 不 同 的 赋值 就 可 能 产生 问题 。 解 决 的 办 法 是 采用 某 种 约定 。 对 于 石头 的 例子 ， 
我 们 采用 WEIGHT 属性 的 一 个 “基本 ” 值 ， 对 应 于 变量 weight 的 一 个 基本 值 ， 并 且 根据 需 
要 多 少 个 基本 值 的 拷贝 平衡 被 测量 对 象 来 定义 测量 值 。 例 如 可 以 使 用 克 和 磅 作为 WEIGHT/ 
weight 系统 的 基本 值 。 

可 以 按照 测量 中 所 寻求 的 实验 关系 来 分 类 测量 类 型 。 然 而 很 重要 的 一 种 其 他 分 类 方法 是 
按照 测量 结果 所 支持 的 变换 方式 来 分 类 ， 也 就 是 可 以 使 用 哪 种 〈 或 哪些 种 ) 变换 来 产生 其 他 
等 价 的 合理 数字 表示 。 例 如 ， 对 于 一 个 数字 的 严重 性 标 度 ， 因 为 它 仅 代表 它 所 处 的 次 序 ， 所 
以 可 以 使 用 任意 保持 此 次 序 的 数字 来 等 价 地 表示 它 一 一 通过 单调 或 依次 地 转化 原来 的 次 序 推 
导出 新 的 数字 。 由 于 这 个 原因 ， 这 样 的 标 度 被 称 为 顺序 标 度 (ordinal scale). 

在 石头 的 例子 中 ， 唯 一 的 合法 变换 是 乘 一 个 常数 〈 例 如 把 磅 转换 为 克 )。 任 何其 他 的 变 
换 〈 对 数字 取 平 方 ， 加 一 个 常数 等 ) 都 会 破坏 数字 所 表示 的 次 序 或 它 所 具备 的 相 加 结合 性 。 
(当然 ， 其 他 的 变换 可 能 使 实验 关系 可 以 用 其 他 数学 运算 来 表示 。 例 如 ， 如 果 我 们 把 石头 例 
子 中 的 值 2、3 和 5 变换 为 e、e 和 cs， 那么 我 们 可 以 用 乘法 来 表示 这 个 实验 关系 ee = e 
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然而 加 法 是 最 基本 的 运算 ， 所 以 是 被 优先 选择 的 。) 因为 使 用 一 个 常数 来 乘 这 种 类 型 的 标 度 
仍然 保持 测量 值 原 来 的 比例 ， 所 以 这 种 标 度 被 称 为 比例 标 度 〈ratio scale). 

在 我 们 前 面 的 另 一 个 例子 中 〈 头 发 颜色 的 例子 ) 任何 变换 都 是 合法 的 ， 只 要 保持 每 个 唯 
一 标识 是 用 不 同 的 数字 表示 的 一 一 不 关心 两 个 数 哪 一 个 大 一 些 ， 而 且 属 性 的 相 加 是 没有 意义 
的 。 更 简单 地 讲 , 这 里 的 数字 就 是 用 作 标 签 或 名 字 ; 因此 这 样 的 标 度 被 称 为 标 称 标 度 Cnominal 
scale )。 

对 应 于 不 同 的 合理 (或 可 接受 的 ) 变换 方式 ， 还 存在 其 他 的 标 度 类 型 。 其 中 之 一 是 区 间 
标 度 (interval scale)。 这 里 的 合理 变换 方式 是 允许 对 测量 单位 乘 一 个 常数 ， 再 加 一 个 任意 常 
数 。 因 此 不 仅 测量 单位 是 任意 的 ， 而 且 原 点 也 是 任意 的 。 这 种 标 度 的 经 典 例子 是 传统 的 温度 
测量 〈 华 氏 ， 摄 氏 等 等 ) 和 日 历时 间 。 

理解 不 同 种 类 测量 标 度 的 基础 是 很 重要 的 ， 因 为 只 有 这 样 我 们 才能 保证 数据 挖掘 操作 中 
发 现 的 模式 是 名 副 其 实 的 。 为 了 举例 说 明 这 一 重要 性 ， 假 定 有 两 个 小 组 ， 每 个 小 组 有 三 个 串 
者 ， 现 在 用 从 1〈 不 痛 ) 到 10 剧 痛 〉 的 顺序 标 度 来 记录 他 们 的 疼痛 情况 。 一 个 小 组 的 三 个 
患者 的 结果 是 1，2 和 6， 另 一 个 小 组 的 结果 是 3，4 和 5。 前 三 个 人 的 平均 值 是 (1 + 2 +6) 
/3 =3， 而 另 三 个 人 的 平均 值 是 4。 第 二 个 小 组 的 平均 值 较 大 。 然 而 由 于 标 度 是 纯 硕 序 的 ， 亡 
以 保持 顺序 的 任意 变换 都 会 得 到 等 价 的 合理 数字 表示 。 例 如 ， 可 以 变换 标 度 使 它 的 范围 变 为 
1 到 20, 把 C1, 2, 3, 4, 5, 6) 变换 为 (1，2，3，4，5，12) 将 仍 保持 着 不 同等 级 疼痛 
间 的 顺序 关系 一 一 如 果 使 用 第 一 套 标 度 患 者 A 比 患者 B 疼痛 得 更 加 厉害 ， 那 么 使 用 第 二 大 
标 度 患者 A 也 还 比 患者 B 疼痛 得 更 加 厉害 。 然 而 现在 第 一 组 患者 的 平均 结果 是 (1 + 2 + 12) 





” /3 =5， 而 第 二 组 的 平均 值 还 是 4。 这 样 ， 两 个 等 价 的 合理 数字 表示 就 导致 了 相 矛 盾 的 结论 。 


使 用 第 一 套 标 度 观测 到 的 模式 (一 组 的 均值 大 于 另 一 组 ) 是 对 所 采用 的 数值 表示 的 生 搬 硬 套 ， 
并 不 与 对 象 间 任何 真实 的 关系 所 对 应 〈 如 果 它 反映 了 真实 的 关系 ， 那 么 两 个 等 价 的 合理 表示 
不 会 得 出 相反 的 结论 )。 为 了 避免 这 个 问题 ， 我 们 必须 保证 仅 在 测量 标 度 合理 变换 时 真实 什 
保持 不 变 的 情况 下 作出 统计 结论 。 在 这 个 例子 中 ， 我 们 可 以 得 出 这 样 的 结论 ， 对 第 二 组 评价 
(score) 的 中 值 (median) 大 于 对 第 一 组 的 评价 的 中 值 ， 无 论 我 们 应 用 什么 样 的 保持 顺序 的 
变换 这 都 是 成 立 的 。 

直到 这 里 ， 我 们 一 直 集中 讨论 的 是 映射 意义 上 的 测量 ， 在 这 种 映射 中 ， 被 研究 的 实验 系 
统 中 的 数字 间 关 系 对 应 于 数字 系统 中 的 数字 间 关 系 。 因 为 这 种 映射 是 用 来 表示 实验 系统 中 的 
关系 ， 所 以 这 种 类 型 的 测量 被 称 为 表示 性 的 《representational )。 

然而 并 非 所 有 的 测量 过 程 都 可 以 很 容易 地 被 纳入 这 个 框架 。 在 某 些 情况 下 ， 更 自然 的 是 
会 把 测量 过 程 当 作 定义 问题 中 的 属性 ， 并 赋 一 个 数字 给 这 个 属性 。 例如 ,医学 中 的 QUALITY 
OF LIFE (生活 质量 ) 属性 经 常 是 这 样 衡量 的 ， 标 识 出 人 类 生活 中 那些 被 认为 很 重要 的 部 分 ， 
然后 定义 一 种 方法 用 来 把 对 应 于 每 一 部 分 的 分 数 合 并 起 来 《例如 ， 加 权 求 和 )。 软 件 工程 中 
的 EFFORT 有 时 也 是 以 相似 的 方式 定义 的 ， 把 程序 指令 的 数量 、 复 杂 度 等 级 、 内 部 和 外 部 
文档 的 数量 等 尺度 联合 起 来 。 同 时 定义 并 测量 一 个 属性 的 测量 过 程 被 称 为 操作 性 的 
(operational) 或 非 表示 性 的 〈nonrepresentational ) 过 程 。 关于 测量 的 操作 性 观点 是 在 物理 
学 中 形成 的 ， 时 间 大 约 在 20 世纪 初 ， 当 时 物理 学 界 正 处 于 对 像 原 子 概念 这 样 的 事实 的 不 安 
之 中 。 今 天 ， 这 种 方法 在 社会 和 行为 科学 中 具有 了 更 大 的 实践 内 涵 。 因 为 在 这 种 方法 中 测量 
过 程 同时 定义 了 属性 ,所 以 避免 了 合理 变换 所 产生 的 问题 。 既然 不 存在 其 他 可 选 的 数字 表示 ， 
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那么 任何 统计 结论 都 是 可 容许 的 。 


例 2.1 Halstead (1997) 给 出 了 一 种 测量 编程 工作 量 的 早期 尝试 。 在 一 个 给 
定 的 程序 中 ， 如 果 a 是 独立 的 运算 符 的 数量 ，b 是 独立 的 操作 数 的 数量 ，n 是 全 部 
运算 符 的 数量 ，m 是 全 部 操作 数 的 数量 ， 那 么 编写 这 个 程序 的 工作 量 是 : 


e = am(n + m) log(a + b)/2b 


这 是 一 个 非 表示 性 的 测量 ， 因 为 它 有 既定 义 了 编程 工作 量 这 个 属性 ， 又 提供 了 一 
种 测量 它 的 方法 。 


一 种 描述 表示 性 测量 和 操作 性 测量 之 间 差 异 的 方法 是 前 者 侧重 于 理解 系统 中 发 生 什么 ， 
而 后 者 侧重 于 预测 发 生 什么 。 在 本 书 的 其 他 很 多 地 方 都 提 到 了 理解 “或 描述 ) 一 个 系统 与 预 
测 一 个 系统 的 行为 间 的 差异 。 当 然 ， 这 两 个 目标 是 相互 重 雳 的 ， 但 是 知道 它们 闻 的 差异 是 有 
价值 的 。 我 们 可 以 不 必 关 心 隐 藏 在 测量 过 程 底层 的 具体 机 制 便 构建 出 有 效 的 而 且 有 价值 的 预 
测 系统 。 例 如 很 多 人 成 功 地 驾驶 汽车 或 操作 影碟 机 ， 但 他 们 并 不 知道 这 些 设 备 内 部 的 任何 工 
作 过 程 。 

原则 上 ， 不 论 是 测量 的 表示 性 方法 所 定义 的 映射 ， 还 是 操作 性 方法 所 赋予 的 数字 都 可 
能 从 一 个 连续 区 域 取 任何 值 。 例 如 ， 一 个 映射 可 以 告诉 我 们 单位 正方 形 的 对 角 线 长 度 是 2 
的 平方 根 。 然 而 实践 中 记录 的 数据 仅 是 这 个 数学 理想 值 的 近似 。 首 先 ， 在 测量 中 经 常 存在 
不 可 避免 的 误差 (例如 ， 如 果 你 反复 地 测量 某 个 人 的 身高 ， 精 确 到 毫米 ， 那 么 你 看 到 的 是 
一 个 很 多 值 的 分 布 )。 第 二 ， 数 据 总 是 记录 到 有 限 的 小 数位 。 我 们 可 以 记录 单位 正方 形 的 
对 角 线 长 度 为 1.4， 或 141， 或 1.414， 或 1.4142， 等 等 ， 但 这 个 测量 值 总 是 不 精确 的 。 偶 
尔 这 种 近似 会 对 分 析 造 成 影响 。 当 近似 太 粗糙 时 (记录 数据 的 小 数位 数 太 少 )， 这 种 影响 
是 非常 明显 的 。 

上 面 的 讨论 对 测量 问题 提供 了 一 个 理论 基础 。 然 而 ， 这 并 未 覆盖 已 经 提出 的 所 有 测量 术 
语 。 有 人 已 经 提出 了 很 多 其 他 对 测量 标 度 分 类 的 方法 ， 有 时 并 不 是 基于 标 度 的 抽象 数学 属性 ， 
而 是 基于 用 来 操纵 它们 的 数据 分 析 技 术 的 种 类 。 这 样 的 备 选 方法 包括 计数 和 测量 ， 标 称 的 、 
顺序 的 和 数字 的 ‘numerical) 标 度 ;定性 和 定量 测量 ;范畴 型 (categorical) 测量 和 标 距 型 
测量 (metrical); 分 级 grade)、 排 位 〈rank)、 计 份额 (counted fraction)、 计 数 count). 
计量 (amount) 和 计 余 额 (balance)。 多 数 情况 下 这 些 术语 的 含义 是 很 清楚 的 。 例 如 ， 排 位 
就 是 以 问题 中 属性 的 相对 “大 小 ”为 基础 赋 给 集合 中 的 某 些 特定 实体 一 个 整数 : 排 位 是 保持 
顺序 属性 的 整数 。 

在 数据 挖掘 应 用 中 《〈 也 在 本 书 中 )， 最 常见 的 标 度 类 型 有 : 允许 任何 一 对 一 变换 的 范畴 
型 标 度 〈 标 称 标 度 )， 有 序 的 范畴 型 标 度 ， 以 及 数字 《定量 的 或 实数 值 的 ) 标 度 。 
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很 多 数据 挖掘 技术 〈 例 如 最 近邻 分 类 (nearest neighbor classification) 方法 、 聚 集 分 析 、 
多 维 缩放 〈multidimensional scaling) 方法 ) 都 是 基于 对 象 间 的 相似 性 尺度 。 主要 有 两 种 方法 
得 到 相似 性 尺度 。 第 一 种 是 直接 从 对 象 获 得 。 例 如 市 场 调查 可 以 让 受 访 者 根据 成 对 对 象 问 的 
相似 性 来 鉴定 它们 的 等 级 ， 或 者 在 食品 品尝 试验 中 可 以 在 各 种 滋味 的 冰 激 淋 间 说 出 相似 性 。 
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第 二 种 方法 是 可 以 根据 描述 每 一 个 对 象 的 测量 或 特征 向 量 ， 间 接地 得 到 相似 性 尺度 。 在 第 二 
种 情况 中 有 必要 定义 “相似 ”的 含义 ， 以 便 计 算 正 式 的 相似 尺度 。 

与 其 谈论 两 个 对 象 间 如 何 相似 ， 还 不 如 谈论 它们 如 何不 相似 。 一 旦 我 们 有 了 “相似 ”或 
“不 相似 ”中 任 一 个 的 正式 定义 ， 那 么 我 们 就 可 以 简单 地 通过 一 个 适当 的 单调 递减 变换 来 定 
义 另 一 个 。 例 如 ， 如 果 s G, D 表示 对 象 i 和 j 间 的 相似 性 ，d Gi, Pp 表示 相 异 性 ， 那 么 可 
行 的 变换 包括 d G, j =1-s G, j) MdG, D = /20—-sG,f)) o Ais “IRER (proximity)” 
经 常用 作 既 可 以 表示 相似 性 又 可 以 表示 相 异 性 的 一 个 通用 提 法 。 

关于 相似 性 的 另外 两 个 经 常 使 用 的 术语 是 距离 (distance) 和 标 距 (metric) ©. RHE 
离 经 常用 来 指 非 正式 的 相 异 性 尺度 ， 它 是 从 描述 对 象 的 特征 推导 出 的 ， 比 如 下 面 定义 的 欧 氏 
JES (Euclidean distance)。 另 一 方面 ， 标 距 是 满足 以 下 三 个 条 件 的 不 相似 尺度 : 

1 WERAW My, di p20, FAHAS i=j 时 dG, j)=0; 

2. MFRAW IAS, di, p= dG, i); 

3. 对 于 所 有 的 i,，j 和 k,，d(i, )<di, D+ d (k, jo 

上 面 的 第 三 个 条 件 被 称 为 三 角 不 等 式 。 

假定 我 们 有 n 个 数据 对 象 ， 每 个 对 象 有 p 个 实数 的 测量 值 。 我 们 用 以 下 方法 表示 第 i 个 
对 象 的 观测 向 量 ，xG = (4), xi), > x), Si <n, HH x DRA i RRRA RET 
变量 。 那 么 第 i 个 对 象 和 第 j 个 对 象 间 的 欧 氏 距离 “Euclidean distance) 被 定义 为 : 


1 


P 2 
deli, j= Se D- x GD? (2.1) 
k=i 
这 个 尺度 是 以 变量 间 的 一 定 的 公 度 性 (commensurability ) 为 前 提 的 。 因 此 如 果 每 个 变 
量 都 是 使 用 统一 单位 测量 的 长 度 〈 当 维 数 p 是 2 或 3 时 ， 这 个 公式 得 到 的 是 我 们 使 用 的 标准 
物理 距离 尺度 ) 或 者 重量 ， 那 么 这 个 公式 也 是 有 效 的 。 如 果 变 量 不 是 使 用 统一 标准 测量 的 ， 
那么 这 个 公式 就 没什么 意义 了 。 例 如 ， 如 果 一 个 变量 是 length， 另 一 个 变量 是 weight, WA 
没有 明显 的 办 法 来 选择 单位 ， 如 果 改 变 单位 的 选择 ， 那 么 就 我 们 所 关心 的 距离 而 言 的 最 重要 
变量 就 可 能 不 是 原来 的 那 一 个 了 。 
既然 我 们 经 常 要 处 理 不 是 在 同一 公 度 下 测量 的 变量 ， 我 们 就 必须 找到 某 个 办 法 来 克服 选 
择 单 位 的 任意 性 。 一 种 普遍 的 策略 是 使 数据 标准 化 ， 即 用 样本 的 标准 差 除 以 每 一 个 变量 ， 以 
便 使 所 有 变量 都 可 以 被 看 作 具 有 同等 的 重要 性 。( 但 注意 这 又 产生 了 一 个 问题 一 一 “把 每 个 
变量 看 作 具 有 同等 的 重要 性 ”还 是 做 了 一 个 很 武断 的 假定 .) 第 个 变量 X 的 标准 差 可 以 通 
过 下 式 来 估计 : 


1 
2 
Ô, -Emo (2.2) 


i=] 
其 中 以 是 X 的 均值 ， 可 以 用 样本 均值 (sample mean) m= +P xg (DIN, CURSE 
未 知 )。 于 是 XK =XVG :通过 6 “消除 了 标 度 的 影响 。 


名 “译注 ， 目 前 这 个 单词 的 中 文 译 法 很 多 ， 比 如 “尺度 “量度 和 “测度 ““ 跳 数 ”等 等 ， 本 书 中 将 其 译 为 “ 标 距 “。 
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此 外 ， 如 果 我 们 希望 区 别 每 一 个 变量 的 相对 重要 性 ， 那 么 我 们 可 以 对 它们 进行 加 权 (标准 化 
之 后 )， 于 是 便 得 到 了 加 权 的 欧 氏 距离 尺度 : 


Pp 2 
dwg (i, j) [$n (xpi) — xy >| (2.3) 
k= 

从 变量 独立 地 对 距离 尺度 起 作用 这 个 角度 来 看 ， 欧 氏 和 加 权 欧 氏 距 离 都 是 加 成 的 
(additive)。 这 个 特征 有 时 是 不 合适 的 。 考 虑 一 个 极端 的 情况 ， 设 想 我 们 量 很 多 杯子 的 高 度 
和 直径 。 利 用 同 量 纲 (commensurate) 单位 ， 我 们 可 以 使 用 这 两 个 测量 来 定义 杯子 间 的 相似 
性 。 现 在 假定 我 们 测量 每 个 杯子 的 高 度 100 次 ， 直 径 1 次 《那么 对 于 任 一 个 杯子 我 们 有 101 
个 变量 ， 其 中 100 个 几乎 是 相同 的 值 )。 如 果 我 们 把 这 些 测 量 代入 标准 欧 氏 距离 公式 中 计算 ， 
那么 高 度 会 支配 杯子 间 的 相似 性 。 然 而 ，99 个 高 度 测量 对 于 我 们 真正 需要 的 尺度 没有 任何 
贡献 ， 它 们 与 第 一 个 高 度 测量 是 高 度 相关 的 《事实 上 除了 测量 误差 外 是 完全 相关 的 )。 为 了 
消除 这 种 元 余 我 们 需要 一 种 数据 驱动 (data-driven〉 方 法 。 一 种 方法 是 使 数据 标准 化 ， 不 仅 
是 像 加 权 欧 氏 距 离 中 的 那样 在 每 个 变量 的 方向 上 标准 化 ， 而 且 还 考虑 变量 间 的 协 方差 


(covariances )。 


例 2.2 考 处 两 个 变量 六 和 y， 并 且 假 定 我 们 有 n AR, REX een het 
象 的 取 值 是 x(1)，…，x(n)， 变 量 了 的 取 值 是 y), e yn) MA X Ao Y iE 
本 协 方差 (sample covariance ) 被 定义 为 : 


Cov(X, niş (x(i)- ¥ ) yD-y) (2.4) 
nit 
其 中 是 天 的 样本 均值 ， 了 5 是 了 的 样本 均值 
协 方差 是 衡量 X FY 如 何 一 起 变化 的 尺度 : 如 果 里 中 的 较 大 值 趋向 于 和 了 中 
的 较 大 值 关联 而 且 X 中 的 较 小 值 和 了 中 较 小 值 趋向 关联 ， 那 么 协 方 差 是 一 个 大 正 
值 ， 如 果 久 中 的 较 大 值 趋向 于 和 了 中 的 较 小 值 关联 ， 那 么 协 方差 将 是 一 个 负 值 。 
更 一 般 地 讲 ， 对 于 疡 个 变量 ， 我 们 可 以 建立 pxp tihi EE, APA (k, 
1) 是 第 天 个 和 第 【个 变量 间 的 协 方差 。 从 前 面 的 协 方差 定义 中 我 们 可 以 看 出 这 样 的 
一 个 矩阵 (〈 协 方差 矩阵 ) 一 定 是 对 称 的 。 
协 方差 的 值 依赖 于 X 和 了 的 范围 。 可 以 通过 标准 化 方法 来 消除 这 种 依赖 性 ， 
用 成 值 的 标准 偏差 除 以 美 值 ， 用 了 值 的 标准 偏差 除 以 了 的 值 。 得 到 的 结果 是 X 和 
7 间 的 样本 相关 系数 ( sample correlation coefficient ) p (X, Y): 
ex yee D= DOOD as) 
(E e0- 200-7? } 
如 果 有 pp 个 变量 ， 那么 可 以 用 与 建立 协 方差 答 阵 相同 的 方式 建立 一 个 pp 的 
44% 420 (correlation matrix )， 图 2-1 显示 了 一 个 11 维 数据 集 的 相关 答 阵 的 像素 图 
像 ， 其 中 的 数据 是 波士顿 的 各 个 不 同 郊区 和 居住 有 关 的 变量 。 MGXA FEE RATA VA 
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清楚 地 看 出 不 同 变量 是 如 何 相关 的 。 例 如 ， 变 量 3 和 4 (与 商业 区 面积 和 和 气 氧 化 物 
浓度 有 关 ) 都 与 变量 2 (郊区 内 大 居民 点 的 比重 ) 高 度 负 相关 ; 而 且 变量 3 和 4 相 
互 间 是 正 相 关 的 。 变 量 $ (家庭 平 均 房 间 数 ) 和 变量 11 (家 产 中 数 (median home 
value)) 是 正 相 关 的 (也 就 是 房子 越 大 往往 越 富 有 )。 变 量 8 和 9 (动产 纳税 比率 和 
高 速 公路 可 达 性 ) 也 是 高 度 正 相关 的 。 


变量 号 码 





8 10 12 14 


6 
变量 号 码 


图 2-1 一 个 显示 为 像素 图 像 的 样本 相关 矩阵。 白色 对 应 +1， 黑 色 对 应 -1。 最 右边 的 三 列 
分 别 包含 -1，0 和 +1 以 提供 一 个 像素 亮度 的 参考 。 其 余 的 11 x 11 个 像素 表示 11 xH 
的 相关 矩阵。 数据 来 自 于 回归 研究 文献 中 的 一 个 著名 数据 集 ， 其 中 每 一 个 数据 向 
量 是 波士顿 的 一 个 郊区 ， 每 个 变量 表示 郊区 的 某 一 普通 指标 。 变 量 名 是 O) 按 
人 口 计算 的 平均 犯罪 率 ，(2) 大 居住 区 的 面积 比例 ，(3) 非 零售 商业 面积 的 比例 ， 
(4) 氨 氧 化 物 浓度 ，(5) 每 个 住所 (perdwelling) 的 平均 房间 数 ，(6) 1940 年 前 
的 家 庭 所 占 比 例 ，(7) 到 零售 中 心 的 距离 ，(8) 高 速 公路 的 可 达 性 ，(9) 动产 纳 
税 比率 (property tax rate), (10) 儿童 受 教育 率 ，(11) 业主 未 失业 家 庭 财产 的 中 数 


注意 协 方差 和 相关 性 体现 了 变量 间 的 线性 依赖 性 (linear dependency ) (更 精确 

地 讲 它们 应 被 称 为 线性 协 方差 和 线性 相关 )。 考 虑 在 二 维 空间 (X 和 Y) 中 以 圆心 

为 中 心 均匀 分 布 的 数据 点 。 显 然 这 两 个 变量 是 依赖 的 (dependent )， 但 是 是 以 非 线 

性 的 方式 依赖 的 ， 所 以 它们 是 0 线性 相关 。 因 此 独立 意味 着 不 相关 ， 但 反 过 来 不 总 

是 正确 的 。 在 第 4 章 我 们 将 更 多 地 探讨 独立 性 。 

再 回忆 一 下 前 面 关于 咖啡 杯 的 例子 ， 其 中 有 100 个 高 度 测量 值 和 一 个 直径 测量 值 。 我 们 
可 以 通过 把 我 们 的 距离 定义 融入 到 协 方差 矩阵 而 削减 100 个 相关 变量 的 影响 。 这 就 是 两 个 p 
维 测量 值 xD 和 x (Mahalanobis) 距离 ， 具 体 定义 为 : 
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1 
dun Ci) = (Dx) Dx) -x())? (2.6) 


EP OT Rae BE, LÆ pxp 的 样本 协 方差 年 阵 ， 立 ! 相对 了 标准 化 了 数据 。 注 意 尽管 我 们 
一 直 是 把 p 维 测量 向 量 xD 考虑 为 数据 矩阵 中 的 行 ， 但 是 矩阵 代数 中 的 惯例 是 把 它 汉 作 Px 1 
的 列 向 量 〈column vector)〈 我 们 仍然 可 以 把 我 们 的 数据 矩阵 想像 为 一 个 nxp MIER). EE 
FR (ky D 是 变量 丸和 总 间 按 公式 2.5 定义 的 样本 相关 系数 。 于 是 我 们 把 向 量 p x 1 转 置 
(以 给 出 一 个 1 x p HAE), FRA p x p 的 矩阵 1， 再 乘 以 一 个 p x 1 的 向 量 ， 得 到 一 个 
标量 的 距离 。 当然 在 2 的 位 置 也 可 以 用 其 他 的 矩阵 。 实际 上 , 仍 使 用 “典型 "变量 分 析 (canonical 
variates analysis) 和 判别 分 析 的 统计 框架 就 是 使 用 不 同 实例 Cases) 组 的 协 方差 均值 矩阵 。 
也 可 以 用 其 他 方式 来 推广 欧 氏 标 距 。 例 如 ， 一 种 明显 的 泛 化 是 闵 可 大 斯 基 (Minkowski) 
( 详 注 : IPA ARK WR” 或 LERE: 

1 

p 
be o-z) (2.7) 


k=l 





paz PEALE”, KERER EA 时 的 特例 。L 标 距 ( 又 被 称 为 曼 哈 坦 (Manhattan ) 
或 城市 街区 标 距 ) 可 被 定义 为 : 


P 
2 @-x(D)! (2.8) 
k=l 

BA ool} 44 LARE 


max | xq (i) ~ xx (j)I 


HRT AY A ET WA RE, MAGRE ESUE, 
是 如 何 判 断 哪 一 个 标 距 最 适 于 特定 的 问题 。 

对 于 多 变量 的 二 进 制 数据 (binary data) 我 们 可 以 数 出 〈count) 两 个 对 象 取 相同 值 或 取 
不 同 值 的 变量 计数 。 考 虑 表 2-1, 和 为 两 个 对 象 ， 为 它们 定义 的 所 有 p 个 变量 的 取 值 范围 
都 是 {0, 1}， 表 格 中 当 i=1 和 j=1 时 的 表 项 ni 表示 i 和 j 的 值 都 为 1 时 的 变量 有 nm 个。 


表 2-1 二 进 数 变量 的 交叉 分 类 


对 于 二 进 制 数据 ， 我 们 一 般 不 再 衡量 对 象 间 的 相 异 性 ， 而 是 衡量 相似 性 。 或 许 最 明显 的 
相似 性 尺度 是 简单 匹配 系数 (simple matching coefficient), 具体 定义 为 两 个 对 象 取 相同 值 的 
变量 数 占 总 变量 数 的 比例 : 

m1 + 10,0 


(2.9) 
nii + Aio 十 70 十 10.0 


tease 
va i ü 
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SEA ny y+ Aot noit moo= p， 即 变量 的 总 数 。 然 而 有 时 包括 (0，0) 情况 (或 (1，1) 的 情 
况 ， 依 赖 于 1 和 0 的 含义 ) 是 不 适宜 的 。 例 如 ， 如 果 变 量 所 表示 的 是 具有 (为 D 或 不 具有 
(为 0) 某 种 特定 属性 ， 那 么 我 们 可 能 不 关心 那些 两 个 对 象 都 不 具有 的 无 关 属性 。( 例如 ， 
在 文本 文档 的 向 量 表示 中 ， 两 篇 文档 中 都 不 包含 成 二 的 特定 术语 ， 不 过 这 一 点 可 能 是 对 我 们 
的 问题 无 关 的 。 这 种 考虑 产生 了 一 种 改进 的 匹配 系数 ， 被 称 为 Jaccard 系数 ， 具 体 定义 为 : 

-21 (2.10) 

Ay + no + No) 

Dice 系数 延伸 了 这 一 讨论 。 如 果 CO, 0) 匹配 是 无 关 的 ， 那 么 从 相关 的 角度 来 看 ，(0, 1) 
Al C1, O 的 不 匹配 数 应 该 在 (1，1) 匹配 数 和 “0，0) 匹配 数 之 间 。 由 于 这 个 原因 (0，1) 
Al (1, 0) 的 不 匹配 数量 应 该 被 折 半 。 这 样 便 得 到 了 Qn (2 nat mot no) MATHES 
(quantitative) 数据 的 情况 一 样 ， 对 于 多 元 二 进 制 数据 也 有 很 多 不 同 的 尺度 同样 ， 问 题 
不 是 定义 这 样 一 个 尺度 ， 而 是 选取 一 个 具有 我 们 手头 问题 所 期 望 特征 的 尺度 。 

对 于 变量 具有 两 个 以 上 范畴 的 范畴 型 数据 ， 我 们 可 以 把 两 个 对 象 取 值 一 致 的 变量 评 为 
1， 否 则 评 为 0， 并 对 这 些 值 求 和 ， 然 后 再 除 以 总 的 变量 数 p。 如 果 我 们 知道 范畴 ， 那 么 我 们 
可 以 定义 一 个 矩阵 ， 给 出 各 种 不 一 致 情况 的 值 。 

加 成 的 距离 尺度 可 以 方便 地 升级 到 适合 处 理 混 合 类 型 的 数据 《〈 例 如， 一 些 是 二 进 制 的 、 
一 些 是 范畴 值 ， 一 些 是 定量 值 ?， 因 为 我 们 可 以 把 每 个 变量 的 贡献 相 加 。 当 然 ， 标 准 化 的 问 
题 也 还 是 存在 的 。 





2.4 数据 转化 


有 时 原始 数据 的 形式 并 不 是 最 方便 的 ,因此 在 分 析 前 对 它们 进行 调整 是 有 好 处 的 。 注 意 ， 
数据 的 性 质 是 直接 影响 模型 形式 的 。 例 如 ， 如 果 我 们 推测 变量 了 是 变量 X 的 平方 的 函数 ， 
那么 我 们 既 可 以 努力 寻找 系 的 合适 的 函数 ， 又 可 以 先 对 X 乘 方 令 U = 了 XY， 然后 匹配 一 个 对 
U 的 函数 。 在 这 个 简单 的 例子 中 ， 很 明显 两 种 方法 是 等 价 的 ， 但 有 时 一 种 或 男 一 种 可 能 更 加 
直截了当 ， 易 于 理解 。 


例 2.3 很 明显 在 图 2-2 中 变量 Vi 和 变量 V 是 非 线 性 相关 的 。 然 而 如 果 我 们 
取 VY, 的 倒数 ， 也 就 是 定义 V= 1/1V,， 那 么 我 们 就 得 到 了 图 2-3 所 示 的 线性 关系 。 


有 了 时， 特别 是 如 果 我 们 在 使 用 正式 的 统计 推理 ， 而 且 在 这 种 推理 中 分 布 的 形状 是 很 重要 
的 (因为 要 运行 统计 测试 或 计算 置信 区 间 )， 那 么 我 们 可 能 要 转换 数据 以 便 使 它们 更 接近 所 
必需 的 分 布 。 例 如 ， 对 正 向 倾斜 的 (positively skewed) 数据 (例如 银行 账号 里 的 金额 或 收 
A) 取 对 数 使 其 分 布 更 均衡 (symmetric) (以 便 它 更 好 地 通 近 一 个 正 态 分 布 ， 很 多 推理 过 程 
都 是 基于 正 态 分 布 的 ) 是 很 常见 的 。 

例 2.4 在 图 2-4 中 两 个 变量 不 仅 不 线性 相关 ， 而 且 变 量 V, MARE Vi 的 增 

长 而 增长 。 有 时 推理 是 基于 固定 变化 率 假定 的 ( 例如， 回归 分 析 中 的 基本 模型 )。 

对 于 这 些 数据 (人 工 模拟 的 ) 的 情况 ， 对 OV, 取 平 方 根 得 到 了 图 2-5 所 示 的 转化 后 

的 数据 。 
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图 2-2 变量 Vi. 和 Vy, 间 的 简单 非 线性 关系 (在 这 一 幅 和 后 边 的 几 幅 播 图 中 V, 和 VV 分 别 在 X 轴 和 Y 轴 上 )。 
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图 2.3 “进行 简单 变换 ， 把 内 变换 到 1/V 后 的 图 2-2 中 的 数据 
既然 数据 挖掘 的 基本 目标 是 探索 新 的 发 现 ， 那 么 我 们 必须 始终 注视 并 搜索 未 知 的 情况 。 


对 数据 进行 某 些 转换 可 能 发 现 本 来 并 很 不 明显 的 结构 。 另 一 方面 ， 过 分 地 依赖 数据 转化 也 可 


能 物 极 必 反 ， 我 们 必须 提防 完全 由 机 械 的 数据 变换 产生 的 结构 《参见 2.2 节 中 顺序 的 疼痛 标 
度 的 例子 )。 一 般 ， 当 数据 挖掘 中 发 生 这 种 情况 时 ， 负 责 评估 “新 发 现 ”的 专家 会 很 快 推翻 
这 样 的 结构 。 

也 要 注意 到 数据 转化 可 能 牺牲 数据 表示 对 象 的 方式 。 例 如 2.2 节 中 描述 的 石头 到 重量 的 


标准 映射 把 物理 结合 映射 到 加 法 操作 。 如 果 我 们 对 表示 重量 的 数字 进行 非 线性 转换 ， 例 如 使 


用 对 数 或 平方 根 操作 ， 那 么 就 不 再 保持 物理 上 的 结合 操作 了 。 因此 必须 在 应 用 转化 时 注意 这 
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图 2-4 ” 另 一 种 简单 的 非 线 性 关系 。 这 里 变量 V, 的 变化 率 随 着 Vi 的 增长 而 增长 
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图 2-5 ”对 凤 进 行 简单 的 平方 根 变换 后 图 2-4 中 的 数据 。 此 时 肥 与 
内 是 线性 相关 的 ， 随 着 Vi 的 增长 到 的 相对 变化 率 是 固定 的 


普通 的 数据 转换 包括 取 平 方 根 、 倒 数 、 对 数 和 调整 变量 到 正 的 整数 乘 方 。 对 于 表示 为 比 
例 的 数据 经 常 使 用 分 对 数 转换 (logit transformation), fo 。 
某 些 技术 假定 变量 是 范畴 型 的 一 一 也 就 是 说 仅 有 几 种 《有 序 的 ) 可 能 响应 (response). 


对 于 极端 的 情况 ， 一 些 技术 假定 响应 是 二 进 制 的 ， 即 仅 有 两 种 可 能 的 分 类 结果 。 当 然 可 以 用 
多 个 不 同 的 阐 值 对 连续 的 变量 〈 那 些 至 少 在 理论 上 可 以 在 给 定 区 间 中 取 任 意 值 的 变量 ) 进行 
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分 割 ， 这 样 便 把 它们 缩减 为 范畴 型 的 。 这 牺牲 了 信息 ， 而 且 信息 的 丢失 随 着 范畴 数 的 减少 而 
增加 ， 但 在 实践 中 这 个 损失 可 能 非常 小 。 


25 数据 形式 


在 第 一 章 中 我 们 提 到 数据 集 具有 不 同 的 形式 ;这些 形式 被 称 为 图 式 (schema)。 最 简 
单 的 数据 形式 (也 是 我 们 已 经 仔细 讨论 过 的 唯一 形式 ) 是 关于 对 象 o(1)，…，o(n) 的 测量 
向 量 集 。 对 于 每 一 个 对 象 我 们 有 p 个 变量 的 测量 值 。 我 们 称 这 种 标准 的 数据 形式 为 数据 矩 
阵 (data matrix)， 或 就 叫 标准 数据 (standard data)。 我 们 也 可 以 把 这 样 的 数据 集 称 为 表 
(table). 

很 多 时 候 ， 我 们 要 分 析 几 种 类 型 的 对 象 。 例 如 ， 在 一 个 工资 数据 库 中 ， 我 们 可 能 既 有 关 
于 雇员 的 数据 ， 例 如 姓名 (name)、 部 门 名 (departmentrname)、 年 龄 (age) ALK (salary); 
又 有 关于 部 门 的 数据 ， 例 如 部 门 名 (department-name )、 部 门 预 算 (budget) 和 部 门 经 理 
(manager)。 这 些 数据 矩阵 是 通过 部 门 名 字段 以 及 姓名 、 部 门 经 理 字 段 的 相同 值 相互 连接 的 。 
由 多 个 这 样 的 第 阵 或 表 组 成 的 数据 集 被 称 为 多 重 关 系数 据 (multirelational data). 

在 很 多 情况 下 ， 多 重 关 系数 据 可 以 被 映射 到 单一 的 数据 矩阵 或 表 中 。 例 如 ， 我 可 以 使 用 
变量 部 门 名 的 值 来 连接 Goin) 以 上 两 个 数据 表 。 这 样 我 们 就 得 到 一 个 包含 变量 姓名 (name)、 
部 门 名 Cdepartment-name)、 Eig Cage), 工资 (salary)、 部 门 预算 Cbudget)、 部门 经 理 (manager) 
的 数据 矩阵 。 这 种 变换 的 可 能 性 似乎 提示 我 们 根本 没有 必要 考虑 多 重 数据 关系 结构 ， 因 为 原 
则 上 我 们 可 以 用 一 张大 的 表 或 矩阵 来 表示 这 样 的 数据 。 然 而 ， 这 种 连接 数据 集 的 方法 不 是 唯 
一 的 可 能 办 法 ;我 们 也 可 以 创建 一 张 表 ， 在 这 张 表 中 存在 的 所 有 部 门 都 有 对 应 的 行 〈《 如 果 我 
们 对 取 部 门 的 信息 感 兴趣 那么 这 种 办 法 是 有 价值 的 ， 例 如 决定 是 否 在 部 门 预算 和 部 门 经 理 的 
年 龄 间 存 在 依赖 性 )。 一 般 来 说 ， 一 张 单一 的 表 不 可 能 完全 捕捉 多 重 数据 集 的 所 有 信息 。 更 
加 重要 的 是 ， 从 数据 存储 和 数据 访问 的 角度 来 看 ， 把 多 重 关 系数 据 展 开 成 一 张 单一 的 大 表格 
可 能 带 来 大 量 值 的 不 必要 重复 。 

某 些 数据 集合 不 能 很 好 地 适合 矩阵 和 表格 的 形式 。 一 个 典型 的 例子 是 时 间 序列 ， 在 时 间 
序列 中 一 连 串 的 值 对 应 于 连贯 的 多 次 测量 例如， 波形 的 信号 强度 测量 ， 或 者 一 个 患者 接受 
治疗 后 一 系列 时 间 的 反应 )。 我 们 可 以 使 用 两 个 变量 来 表示 一 个 时 间 序 列 ， 一 个 变量 表示 时 
间 ， 另 一 个 表示 在 一 定时 间 的 测量 。 这 确实 是 在 数据 库 中 存储 时 间 序 列 的 最 自然 表示 。 然 而 ， 
把 数据 表示 为 一 个 二 变量 矩阵 没有 考虑 数据 的 顺序 性 。 在 分 析 这 样 的 数据 时 ， 认 识 到 数据 中 
确实 存在 自然 的 顺序 是 很 重要 的 。 例 如 ， 发 现 相 邻 观测 的 关系 比 相距 较 远 的 观测 间 的 关系 更 
密切 (关联 更 紧密 〉 是 不 足 为 奇 的 。 没 有 很 好 地 考虑 这 个 因素 可 能 导致 建 模 的 失败 。 

字符 囊 (string) 是 来 自 某 个 有 限 字符 表 的 符号 序列 。 一 个 范畴 型 变量 的 值 的 序列 构成 
一 个 字符 串 ， 标 准 的 英语 文本 即 是 如 此 ， 在 英文 中 值 是 字母 或 数字 字符 、 空 格 和 标点 符号 。 
其 他 的 例子 还 有 蛋白 质 和 DNA/RNA 序列 。 这 里 的 字母 是 单个 的 蛋白 质 〈 注 意 温 白质 序列 的 
串 表 示 是 三 维 结构 的 二 维 视图 )。 字符 串 是 另 一 种 有 序 的 并 且 未 必 适 合 标准 矩阵 形式 的 数据 
类 型 。 

一 种 有 联系 的 有 序数 据 类 型 是 事件 序列 (event-sequence)。 如 果 给 定 了 一 个 有 限 的 事件 
类 型 表 ( 值 是 范畴 型 的 ) 后 ， 那 么 时 间 序 列 是 一 系列 “{ 事 件 ， 发 生 时 间 } ”形式 的 对 。 这 与 
字 签 串 非常 相似 ， 但 这 里 序列 中 的 每 项 附带 一 个 发 生 时 间 。 一 个 时 间 序 列 的 例子 是 电信 报警 
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记录 ， 其 中 包括 每 个 报警 的 发 生 时 间 。 更 复杂 的 时 间 序列 包括 事务 型 数据 (比如 零售 或 财务 
交易 的 记录 )， 其 中 每 一 笔 处 理 都 有 发 生 时 间 惟 并 且 事件 本 身 可 能 比较 复杂 (〈 例 如， 包含 购 
买 的 所 有 商品 和 价格 、 部 门 名 称 等 等 )。 此 外 ， 没 有 理由 把 时 间 序 列 的 概念 限制 在 范畴 型 数 
据 肉 ， 例 如 ， 我 们 可 以 把 它 扩 展 到 异步 发 生 的 实数 值 事件 ， 比 如 来 自动 物 行 为 实验 的 数据 和 
关于 外 层 空 间 物体 能 量 爆发 的 数据 。 

当然 ， 有 时 顺序 可 能 就 是 为 了 逻辑 上 的 方便 : 把 患者 的 记录 按 名 字 的 字母 排序 有 助 于 检 
R, AE Jones 的 记录 在 Smith 的 前 面 不 可 能 对 大 多 数 数据 挖 气 算 法 造成 任何 影响 。 尽 管 如 
此 ， 在 数据 挖掘 中 还 是 应 该 始终 保持 谨慎 。 例 如 ， 同 一 家 庭 成 员 ( 具 有 相同 的 姓氏 〉 的 记录 
可 能 在 一 个 数据 集中 相 邻 的 出 现 ， 而 且 它 们 可 能 具有 相 联系 的 属性 。( 我 们 可 以 发 现 传染 性 
疾病 趋向 于 感染 数据 集中 名 字 相 近 的 人 群 ) 

有 序数 据 是 沿 一 个 单 维 连续 区 展开 的 (每 个 单一 变量 )， 但 其 他 的 数据 经 常 是 位 于 更 高 
维 空间 的 。 空 间 的 (spatial)、 地 理 的 (geographic) 或 图 像 的 数据 是 位 于 两 维 或 三 维 空间 的 。 
某 些 变量 是 数据 图 式 定义 的 一 部 分 ， 认 识 到 这 一 点 是 很 重要 的 ， 换 句 话 来 说 ， 某 些 变量 就 是 
用 来 确定 观测 点 在 空间 中 的 坐标 。 发 现 地 理 数 据 位 于 二 维 的 连续 区 没有 什么 意义 。 

层次 (hierarchical〉 结 构 是 一 种 更 复杂 的 数据 图 式 。 例 如 ， 一 个 关于 儿童 的 数据 集 可 以 
分 组 成 班级 ， 班 级 可 以 分 组 成 各 个 年 级 ， 再 可 以 分 组 成 不 同学 校 ， 再 可 以 按 国 家 分 组 ， 等 等 。 
这 个 结构 明显 是 对 数据 的 一 种 多 重 关系 表示 ， 但 在 单一 的 表格 中 很 难 发 现 这 样 的 结构 。 在 数 
据 分 析 中 忽视 这 个 结构 是 相当 错误 的 。 近 年 来 对 针对 这 种 多 层次 数据 的 统计 模型 的 研究 特别 
活跃 。 下 面 的 情况 是 层次 结构 的 一 种 特例 : 对 问卷 上 特定 项 目的 反应 要 视 其 他 问题 的 答案 而 
定 ; 例如 “你 是 否 做 过 子宫 切除 手术 ? ”这 一 问题 是 否 适合 被 调查 者 回答 依赖 于 其 对 问题 “你 
是 男 的 还 是 女 的 ? ”的 回答 。 

概括 一 下 ， 在 任何 数据 挖掘 应 用 中 注意 数据 的 图 式 都 是 很 关键 的 。 名 视 这 一 点 ， 很 容易 
错过 数据 中 的 重要 模式 ， 甚 或 更 严重 的 是 ,重复 发 现 那些 作为 数据 基础 设计 的 一 部 分 的 模式 。 
另外 在 采样 时 我 们 必须 特别 注意 数据 图 式 问题 ， 在 第 4 章 中 我 们 将 对 此 进行 更 详细 的 讨论 。 





2.6 ”单个 测量 的 数据 质量 


数据 挖掘 的 有 效 性 与 数据 质量 密 不 可 分 。 在 计算 领域 有 一 个 熟悉 的 首 字母 缩写 词 来 表示 
这 种 思想 : GIGO 一 一 垃圾 进 ， 垃 圾 出 (Garbage In, Garbage Out)。 因 为 数据 挖掘 是 对 庞大 
数据 集 的 次 级 分 析 ， 所 以 危险 性 更 增 大 了 。 我 们 在 数据 挖掘 中 发 现 的 最 有 趣 模式 很 有 可 能 是 
由 测量 的 不 准确 、 采 样 的 失真 或 某 些 其 他 对 数据 的 误解 而 导致 的 结果 。 

我 们 可 以 从 两 个 角度 来 刻画 数据 质量 : 个 别 记 录 和 字段 的 质量 ， 以 及 数据 集合 的 总 体质 
量 。 下 面 我 们 依次 讨论 它们 。 

任何 测量 过 程 都 可 能 存在 误差 。 误 差 的 来 源 的 无 限 的 ， 从 测量 人 员 的 不 小 心 和 仪器 的 缺 
AK, 到 我 们 对 测量 对 象 的 认识 不 够 。 测 量 仪器 可 能 在 两 方面 导致 误差 : 仪器 不 准确 (inaccurate》 
或 仪器 的 的 精度 不 够 imprecise)。 因 为 处 理 不 同 种 类 的 误差 需要 采取 不 同 的 策略 ， 所 以 区 
别 这 两 种 情况 是 很 重要 的 。 

一 个 精确 的 (precise) 的 测量 过 程 具有 较 小 的 变化 性 (经 常 使 用 测量 结果 的 方差 来 衡量 )。 
对 于 一 个 精确 的 测量 过 程 来 说 ， 在 同一 条 件 下 对 同一 对 象 重复 测量 将 得 到 非常 相似 的 结果 。 
有 时 精确 一 词 意味 着 在 记录 中 有 很 多 的 数字 位 。 我 们 不 采用 这 种 解释 ， 因 为 这 样 的 “精确 ” 





42 


43 


太 容易 伪造 了 ， 这 一 点 任何 熟悉 现代 数据 分 析 包 《〈 有 时 这 些 包 给 出 的 计算 结果 是 到 小 数 点 后 
第 八 位 或 更 多 ) 的 人 可 能 都 知道 。 

相对 而 言 ， 一 个 准确 的 《accurate) 测量 过 程 不 仅 具 有 很 小 的 变化 性 ， 而 且 得 到 的 结果 
更 接近 真实 值 。 一 个 测量 过 程 可 能 得 到 精度 很 高 的 结果 ， 但 并 不 准确 。 例 如 反复 测量 某 个 人 
的 身高 ， 可 能 是 高 精度 的 ， 但 如 果 这 些 测量 是 当 这 个 人 穿 圣 时 测 的 ， 那 么 结果 当然 是 不 准确 
的 。 用 统计 的 术语 来 讲 ， 反 复 测量 的 结果 和 真实 值 间 的 差异 是 测量 过 程 的 偏差 (bias)。 准 确 
的 测量 不 仅 具 有 很 小 的 偏差 而 且 有 具有 很 小 的 方差 。 

注意 “真实 值 ”的 概念 是 “准确 ”概念 的 一 个 必要 部 分 。 但 这 个 概念 远 比 乍 听 起 来 更 加 
耐人寻味 。 例 如 拿 一 个 人 的 身高 来 讲 。 不 仅 不 同时 刻 有 所 差异 一 一 由 于 这 个 人 的 呼吸 或 由 于 
他 或 她 的 心脏 跳动 一 一 而 且 在 一 天 当中 也 有 所 变化 〈 重 力 把 我 们 向 下 拉 )。 从 太空 旅行 返回 
的 宇航 员 明 显 地 比 他 出 发 时 高 〈 尽 管 他 们 会 很 快 恢 复 以 前 的 身高 )。Mosteller (1968) 指出 : 
“当代 的 一 些 科 学 家 相信 独立 于 所 使 用 的 测量 过 程 的 真实 值 是 不 存在 的 ， 而 且 大 部 分 的 社会 
科学 理论 也 充分 的 支持 这 种 观点 。 这 种 观点 并 不 局 限于 社会 科学 中 ， 在 物理 学 中 ， 对 微观 和 
宏观 量 〈 例 如 长 度 ) 的 不 同 测量 方法 会 使 问题 变 得 错综复杂 。 另 一 方面 ， 因 为 真实 值 提出 了 
改善 测量 方法 的 方向 ， 所 以 真实 值 的 概念 是 有 价值 的 ， 因 为 某 些 方法 比 其 他 方法 更 接近 理想 
情况 ， 那 么 可 以 用 较 好 方法 给 出 真实 值 的 代替 值 .” 

也 有 其 他 的 术语 来 表示 这 样 的 概念 。 测 量 过 程 的 可 靠 性 〈reliability) 与 它 的 精确 性 是 一 
致 的 。 前 一 个 术语 通常 用 于 社会 科学 中 ， 而 后 者 被 用 于 物理 学 中 。 对 同一 概念 使 用 两 个 不 同 
的 名 字 并 非 是 没有 根据 的 ， 因 为 决定 可 靠 性 与 决定 精确 性 的 过 程 是 根本 不 同 的 。 在 衡量 一 个 
仪器 的 精确 性 时 ， 我 们 可 以 反复 使 用 这 个 仪器 : 假定 反复 测量 的 过 程 中 环境 条 件 没有 大 的 变 
化 。 而 且 ， 我 们 假定 测量 过 程 本 身 不 会 影响 被 测量 的 系统 。( 当然， 这 里 存在 一 个 grey area: 
如 同 Mosteller 所 指出 的 ， 测 量 过 程 确实 可 能 产生 非常 小 的 或 细微 的 干扰 现象 然而 在 社会 
和 行为 科学 中 ， 这 种 干扰 几乎 是 不 可 避免 的 :例如 一 个 要 求 被 测试 者 记忆 一 系列 单词 的 测试 
接连 进行 两 次 是 没有 价值 的 。 有 效 地 重复 测试 需要 更 周密 的 技术 ， 例 如 多 种 形式 的 测试 《在 
测试 中 使 用 两 种 可 选择 的 测试 形式 )， 分 成 两 半 测 试 〈 在 这 种 测试 中 ， 把 一 个 测试 的 多 个 项 
目 分 成 两 组 )， 以 及 使 用 具备 内 在 一 致 性 (一致 性 给 出 了 一 个 测试 和 它 的 其 他 包含 同样 数量 
项 目的 版 本 间 的 期 望 相 关 性 ) 的 多 种 方法 。 

前 面 我 们 描述 了 导致 测量 不 准确 的 两 个 因素 。 一 个 是 基本 的 精确 性 一 一 反复 测量 同一 对 
象 得 到 结果 的 相似 程度 。 另 一 个 是 测量 结果 的 分 布 相对 真实 值 的 集中 程度 。 既 然 精 确 性 对 应 
于 可 靠 性 ， 那 么 另 一 个 就 对 应 于 有 效 性 (validity)。 有 效 性 是 一 个 测量 过 程 反 映 它 要 度量 对 
象 的 程度 。 在 很 多 领域 一 一 包括 软件 工程 和 经 济 学 一 一 需要 仔细 地 思考 如 何 建 立 可 以 揭示 我 
们 想 要 度量 的 潜在 概念 的 尺度 。 如 果 一 个 测量 过 程 的 有 效 性 很 差 ， 那 么 我 们 从 中 吸取 的 关于 
目标 现象 的 结论 在 最 好 的 情况 下 也 是 靠不住 的 ， 在 最 坏 的 情况 下 便 是 完全 误导 。 在 反馈 系统 
中 这 个 问题 尤其 严重 ， 因 为 此 时 动作 是 根据 测量 结果 决定 的 。 如 果 测 量 不 是 在 描述 目标 现象 ， 
那么 这 样 的 动作 会 导致 系统 与 它 的 目标 背道而驰 。 














2.7 ”数据 群体 的 数据 质量 


除了 观测 个 体 的 质量 ， 我 们 还 需要 考虑 观测 群体 的 质量 。 大 多 数 统计 和 数据 挖 据 方法 的 
目标 都 是 如 何 从 样本 推理 到 总 体 ， 也 就 是 如 何 基于 对 群体 中 部 分 对 象 的 分 析 作 出 对 整个 总 体 
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的 推理 。 统 计 学 家 使 用 术语 参数 (parameter) 来 指 对 对 象 群 体 或 分 布 的 描述 性 归纳 〈 当 然 ， 
更 一 般 的 情况 下 ， 参 数 是 索引 一 族 数 学 函数 的 一 个 值 )。 从 对 象 样本 计算 出 的 值 被 称 为 统计 
量 〈statistics)， 可 以 选取 适当 的 统计 量 作为 对 参数 的 估计 。 例 如 ， 我 们 可 以 用 样本 的 平均 值 
作为 对 整个 总 体 或 分 布 的 均值 〈 参 数 ) 的 估计 。 

这 样 的 估计 只 有 准确 才 有 价值 。 正 如 我 们 前 面 所 指出 的 ， 两 种 方式 会 导致 不 准确 。 如 采 
从 不 同样 本 得 到 的 估计 差异 很 大 ， 那 么 这 些 估 计 是 不 可 靠 的 ， 因 为 使 用 不 同 的 样本 可 能 就 得 
到 完全 不 同 的 估计 ; 或 者 估计 是 有 偏 的， 倾向 于 太 大 或 太 小 。 一 般 来 说 ， 估 计 的 精确 性 估 
计 随 着 样本 的 不 同 而 变化 的 程度 ) 随 着 样本 容量 的 增 大 而 提高 ， 所 以 只 要 资源 允许 ， 我 们 就 
可 以 把 这 种 不 确定 性 减 小 到 一 个 可 接受 的 值 。 另 一 方面 ， 偏 差 不 是 这 么 容易 减 小 的 。 

某 些 估计 的 偏差 是 固有 的 ， 但 不 会 导致 问题 ， 因 为 这 个 偏差 会 随 着 样本 的 增 大 而 减 小 。 
在 数据 挖 据 中 更 该 引起 重视 的 是 因为 样本 不 适当 所 产生 的 偏差 。 如 果 我 们 希望 计算 纽约 居民 
的 平均 体重 ， 那 么 要 是 把 样本 局 限 在 女性 范围 内 显然 是 不 妥当 的 。 如 果 我 们 这 样 做 了 ， 那 么 
我 们 很 可 能 低估 了 这 个 平均 值 。 很 明显 ， 在 这 个 例子 中 ， 我 们 从 中 抽取 样本 的 群体 纽约 的 
女性 ) 不 是 我 们 希望 要 泛 化 的 群体 (纽约 的 所 有 人 )。 我 们 的 采样 框架 一 一 我 们 将 从 中 抽取 样 
本 的 人 员 名 单一 一 与 我 们 要 对 其 作出 推理 的 总 体 不 匹配 。 这 个 例子 的 情况 是 比较 简单 的 一 一 我 
们 可 以 明确 地 鉴别 出 从 中 抽取 样本 的 总 体 ( 纽 约 的 女性 )。 如 果 错 误 采 样 框 架 的 影响 不 太 明 
显 时 便 有 困难 了 。 例如 , 假定 我 们 从 在 办 公 室 工作 的 人 中 抽取 样本 , 这 会 导致 估计 有 偏差 吗 ? 
或 许 办 公 室 中 的 性 别 比 例 是 不 相称 的 ， 或 许 办 公 宣 工作 者 倾向 于 比 平 均值 重 因为 他 们 的 职业 
使 他 们 习惯 于 坐 着 。 有 很 多 原因 说 明 这 样 的 样本 无 法 代表 我 们 要 研究 的 群体 。 样 本 的 典型 性 
是 能 否 作出 有 效 推理 的 关键 ， 这 与 随机 样本 的 概念 是 一 样 的 。 我 们 将 在 第 4 章 中 讨论 随机 样 
本 的 必要 性 以 及 抽取 这 种 样本 的 策略 。 

因为 很 多 情况 下 数据 挖掘 对 数据 的 采集 方式 没有 任何 控制 ， 所 以 数据 的 质量 问题 更 加 重 
要 。 我 们 的 数据 集 可 能 是 我 们 希望 描述 的 总 体 的 失真 样本 。 如 果 我 们 知道 这 种 失真 的 特征 ， 
我 们 就 有 可 能 在 推理 中 考虑 到 这 个 因素 ， 但 是 一 般 来 说 实际 并 非 如 此 ， 所 以 作出 推理 时 必须 
谨慎 。 有 时 用 术语 “机 会 样本 (opportunity sample)” 和 “顺便 样本 《convenience sample)” 
来 描述 对 目标 总 体 抽样 不 正确 的 样本 。 上 面 关于 办 公 室 工作 人 员 的 样本 就 是 一 个 这 样 的 例 
子 一 一 从 他 们 中 采样 比 从 纽约 的 全 部 人 群 采样 更 方便 。 很 多 原因 会 导致 样本 的 失真 ， 当 包含 
人 的 因素 时 这 个 风险 更 加 严重 。 例 如 ， 在 庞大 的 样本 中 年 龄 分 布 趋向 于 聚集 在 以 0 或 5 结尾 
的 整数 附近 一 一 正 是 数据 挖掘 会 探测 到 并 认为 特别 有 趣 的 那 种 模式 。 这 可 能 是 有 趣 的 ， 但 很 
可 能 对 我 们 的 分 析 没有 任何 价值 。 

当 通 过 一 系列 筛选 步骤 选择 客户 时 会 出 现 另 一 种 失真 。 例 如 ， 就 银行 贷款 来 说 ， 先 要 联 
系 一 个 初始 群体 中 的 客户 〈 某 些 回应 了 ， 某 些 没有 )， 然 后 评估 那些 回应 者 的 信誉 度 〈 某 些 
得 到 较 高 的 分 数 ， 某 些 没有 )， 然 后 对 那些 得 到 较 高 分 数 的 客户 提供 一 笔 贷款 (有些 接受 了 ， 
有 些 没 有 )， 然 后 跟踪 那些 得 到 贷款 的 客户 《有 些 客户 很 好 ， 按 期 归还 贷款 的 各 个 部 分 ， 其 
他 的 不 是 )， 等 等 。 在 任 一 阶段 中 抽取 的 样本 都 可 能 曲解 了 前 一 阶段 的 总 体 。 

在 这 个 银行 贷款 候选 者 的 例子 中 ， 每 一 步 的 筛选 标准 很 清晰 而 且 有 明确 的 规定 ， 但 就 像 
前 面 所 指出 的 ， 事 实 却 不 总 是 这 样 。 例 如 ， 在 临床 试验 的 样本 中 ， 选 择 的 患者 来 自 不 同 的 国 
家 , 已 经 具有 了 不 同 的 诊断 经 历 , 而 且 或 许 以 前 曾 在 不 同 的 初级 医疗 机 构 接受 过 不 同 的 治疗 。 
在 这 里 “从 精确 定义 的 总 体 中 抽取 随机 样本 ”的 概念 行 不 通 了 。 取 而 代 之 的 是 一 些 硬性 的 包 
含 条 件 或 排除 条 件 ， 或 许 患 者 必须 是 男性 ， 年 龄 在 18 到 50 岁 间 ， 两 年 内 被 初诊 为 患 有 所 讨 
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论 的 疾病 ， 等 等 。( 从 这 里 不 难 理解 为 什么 临床 试验 记录 的 有 效率 通常 比 大 范围 应 用 时 发 现 
的 有 效率 要 高 。 另 一 方面 这 是 为 了 确保 一 定 要 以 这 种 方式 来 应 用 这 种 治疗 方法 。) 

除了 由 于 样本 总 体 和 目标 总 体 不 匹配 造成 的 样本 失真 外 ， 还 有 其 他 种 类 的 失真 。 很 多 数 
据 控 气 任务 是 为 了 对 将 来 发 生 的 事情 作出 预测 。 在 这 种 情况 下 总 体 不 是 静态 的 ， 牢 记 这 一 点 
是 非常 重要 的 。 例 如 ， 客 户 在 某 个 商店 购物 的 特征 会 随 着 时 间 变 化 ， 或 许 因为 周围 社会 文化 
的 变化 ， 或 者 是 对 市 场 促销 的 反应 ， 或 者 由 于 其 他 很 多 原因 。 很 多 对 预测 方法 的 研究 因为 没 
有 考虑 这 种 “总 体 漂移 (population driftt)” 因 素 而 失败 。 通 常 ， 是 使 用 与 建立 模型 的 数据 同 
时 收集 的 数据 来 评估 这 些 方 法 的 未 来 性 能 义 隐 含 的 假定 用 来 建立 模型 对 象 的 分 布 与 未 来 
对 象 的 分 布 是 一 样 的 。 理 想 的 情况 是 有 一 种 更 加 完善 的 模型 ， 它 可 以 随时 间 进 化 。 从 理论 上 
讲 是 可 以 对 总 体 漂移 建 模 的 ， 但 在 实践 中 这 并 不 简单 。 

警惕 使 用 失真 样本 的 风险 对 保证 数据 挖掘 的 有 效 性 是 至 关 重 要 的 ， 不 过 并 非 所 有 的 数据 
集 都 是 从 感 兴趣 的 总 体 抽出 的 样本 。 很 多 情况 下 数据 集 包 含 了 整个 总 体 ,但 是 太 庞大 以 至 于 
我 们 希望 工作 在 它 的 一 个 样本 上 。 只 要 恰当 地 选取 样本 ， 那 么 我 们 可 以 产生 任意 准确 度 的 有 
效 描 述 来 概括 这 个 数据 集 所 表示 的 总 体 。 当 然 ， 当 数据 集 具 有 复杂 的 结构 而 且 可 能 分 布 在 很 
多 不 同 的 数据 库 中 时 ， 可 能 产生 一 些 技术 问题 ， 我 们 将 在 第 4 章 中 更 详细 地 讨论 这 些 问题 。 
在 那里 ， 我 们 介绍 了 如 何 从 这 样 的 数据 集中 抽取 样本 ， 以 便 我 们 可 以 对 数据 集 的 整个 总 体 作 
出 准确 推理 。 但 是 我 们 把 讨论 限制 在 样本 的 实际 抽取 过 程 非常 简单 的 情况 ， 我 们 重点 是 应 该 
在 样本 中 包括 哪些 实例 。 

可 以 把 样本 失真 看 作 是 数据 不 完整 的 一 个 特例 ， 即 缺少 了 典型 样本 必须 的 一 些 整 条 记 
录 。 数 据 残缺 的 方式 还 有 很 多 。 特 别 是 记录 中 可 能 缺少 整个 字段 。 从 某 种 程度 来 说 这 不 如 前 
面 描述 的 那样 严重 。( 至 少 这 种 情况 下 ， 我 们 可 以 看 见 数 据 是 不 完整 的 !) 然而 数据 的 不 完整 
还 是 可 能 导致 重大 的 问题 。 根 本 的 问题 是 “数据 为 什么 残缺 ? ”是 否 在 缺少 的 数据 中 存在 已 
经 记录 的 数据 不 具备 的 信息 ? 如 果 是 ， 那 么 基于 这 样 的 观测 数据 作出 的 推理 很 可 能 是 有 偏差 
的 。 在 任何 存在 不 完整 数据 的 问题 中 ， 清 楚 所 分 析 的 目标 是 很 关键 的 。 值 得 一 提 的 是 ， 如 果 
目标 是 仅 对 具有 完整 记录 的 案例 进行 推理 ， 那 么 仅 基于 这 些 完整 记录 的 推理 是 完全 有 效 的 。 

孤立 点 和 异常 观测 结果 代表 了 另 一 类 完全 不 同 的 数据 质量 问题 。 在 很 多 情况 下 ， 数 据 控 
抉 的 目的 就 是 探测 异常 ， 在 欺诈 检测 和 故障 检测 中 ， 那 些 与 众 不 同 的 记录 正 是 应 该 感 兴趣 的 
记录 。 这 种 情况 下 ， 我 们 将 使 用 模式 探测 过 程 (参见 第 6 章 和 第 13 章 )。 另 一 方面 ， 如 果 目 
标 是 建 模 一 一 建立 一 个 全 局 模型 ， 以 辅助 理解 或 从 中 预测 ， 那 么 孤立 点 可 能 使 模型 的 要 点 变 
得 模糊 。 这 种 情况 下 ， 我 们 可 能 希望 在 建 模 前 把 它们 标识 出 来 并 删除 。 但 仅 观 察 一 个 变量 时 ， 
我 们 可 以 简单 地 通过 画 出 数据 图 形 来 检测 出 孤立 点 ， 例 如 直方 图 。 远 离 其 他 点 的 点 会 落 在 尾 
部 。 然 而 当面 临 多 个 变量 时 ， 情 况 就 变 得 更 加 复杂 了 。 这 时 ， 有 可 能 对 于 单个 记录 来 说 每 一 
个 变量 都 具有 完全 正常 的 值 ， 但 总 体 模 式 不 正常 。 考 虑 图 2-6 中 各 点 的 分 布 。 可 以 清楚 地 看 
到 这 里 有 一 个 异常 点 ， 如 果 在 实践 中 观察 这 样 的 一 个 分 布 那么 这 个 点 会 马上 引起 怀疑 。 但 是 
这 个 点 很 突出 完全 是 因为 我 们 产生 的 是 二 维 点 图 。 如 果 对 这 些 数据 进行 一 维 分 析 ， 那 么 这 一 
点 根本 不 会 表现 出 任何 异常 。 

此 外 , 对 于 有 些 特 别 异常 的 实例 , 仅 当 同 时 分 析 大 量变 量 时 它们 的 反常 性 才 会 显露 出 来 。 
这 种 情况 时 ， 使 用 计算 机 检测 是 必须 的 。 

所 有 庞大 的 数据 集 都 含有 值得 怀疑 的 数据 。 所 以 应 该 充分 重视 数据 不 完整 、 采 样 失真 、 
测量 误差 以 及 其 他 可 能 损害 数据 集 质量 的 因素 。 只 有 认识 到 并 理解 数据 的 不 足 ， 我 们 才能 采 
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取 措 施 减 小 它们 的 影响 。 然 后 我 们 才能 保证 发 现 的 结构 和 模式 反映 了 客观 世界 的 真实 情况 。 
既然 数据 挖掘 者 很 少 能 对 数据 采集 过 程 进行 控制 ， 那 么 就 更 应 该 警惕 不 和 良 数据 所 导致 的 危 
险 。Hunter (1980) 简洁 地 指出 了 这 种 风险 : 











图 2-6 ”数据 中 的 孤立 点 。 图 中 画 出 了 正 相关 的 二 元 数据 (来自 一 个 二 
元 正 态 分 布 ) 的 200 个 数据 点 ， 其 中 含有 一 个 明显 的 孤立 点 





质量 低劣 的 数据 是 清晰 思考 和 合理 决策 的 污染 源 。 偏 倚 的 数据 以 及 从 这 些 数 据 
推导 出 的 关系 可 能 对 法 律 法 规 的 制定 造成 严重 的 后 果 ， 


而 且 我 们 还 可 以 补充 很 多 危害 ， 比 如 它们 还 可 能 严重 地 影响 科学 理论 的 发 展 、 重 要 商业 T 
信息 的 揭示 、 生 活 质量 的 提高 ， 等 等 。 51 


28 ”本章 归纳 


在 这 一 章 中 ， 我 们 的 讨论 仅 限于 数字 型 数据 。 然 而 ， 其 他 类 型 的 数据 还 有 很 多 。 例 如 文 
本 数据 是 - -类 重要 的 非 数 字 型 数据 ， 我 们 将 在 第 14 章 讨论 这 种 数据 。 有 时 数据 项 个 体 的 定 
义 〈 从 而 决定 它 是 数字 型 的 或 非 数字 型 的 ) 依赖 于 分 析 的 目标 ， 在 经 济 领域 ， 数 百 数 千 个 时 
间 序 列 存储 在 数据 库 中 ， 数 据 项 可 能 就 是 整个 时 间 序列 ， 而 不 是 这 些 序列 中 的 各 个 数字 。 

即使 对 于 非 数 字 型 数据 ， 数 字数 据 分 析 也 具有 重要 的 作用 。 大 多 时 候 ， 非 数字 数据 项 或 
它们 间 的 关系 被 简化 为 数字 描述 ， 这 是 一 些 标准 分 析 方法 所 必须 的 。 例 如 ， 在 文本 处 理 中 我 
们 可 以 衡量 某 个 单词 在 每 一 篇 文档 中 出 现 的 次 数 或 某 些 单词 对 在 文档 中 成 对 出 现 的 概率 。 


2.9 补充 读物 


关于 表示 性 测量 理论 (representational measurement theory) 的 巨著 是 三 卷 本 的 Krantz et al. 
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(1971), Suppes et al. (1989) 和 Luce et al. (1990). Roberts (1979) 也 概述 了 这 种 方法 。 
Dawes and Smith (1985) 和 Michell (1986, 1990) 描述 了 其 他 一 些 方法 ， 包 括 操作 性 的 方 
法 。Hand (1996) 探讨 了 测量 理论 和 统计 学 的 关系 。 一 些 作 者 在 基本 的 测量 理论 框架 下 探 
讨 了 用 于 软件 工程 的 尺度 一 一 比如 Fenton (1991), Anderberg (1973) 深入 地 讨论 了 相似 和 

不 相似 尺度 。 
在 处 理 社会 、 行 为 和 医药 科学 领域 的 问题 时 ， 经 常 离 不 开 对 可 靠 性 和 有 效 性 的 讨论 一 一 
参见 Dunn (1989) 和 Streiner and Norman (1995)。Carmines and Zeller (1979) 也 讨论 了 
这 一 问题 。 关 于 数据 不 完整 和 不 同类 型 的 数据 残缺 机 制 的 重要 著作 是 Little and Rubin 
(1987), 用 于 说 明 失 真 样本 的 银行 贷款 实例 来 自 Hand, McConway, and Stanghellini (1997). 

Goldstein (1995) 是 一 本 关于 多 层次 建 模 的 重要 著作 。 


第 3 章 可 视 化 和 探索 数据 


3.1 简介 


本 章 将 讨论 如 何 运 用 可 视 化 方法 来 发 现 数据 中 的 结构 。 可 视 化 方法 之 所 以 在 数据 探索 中 
占有 特别 重要 的 地 位 是 因为 人 类 的 眼睛 和 大 脑 具 有 强大 的 结构 探测 能 这 是 长 期 进化 的 
成 果 。 可 视 化 方法 就 是 以 各 种 可 以 发 挥 出 人 类 在 模式 处 理 方面 的 特殊 能 力 的 方式 来 显示 数 
据 。 这 种 方法 与 正规 的 建 模 方法 和 用 来 验证 观察 数据 是 否 出 自 某 种 假设 结构 的 方法 是 截然 不 
同 的 ， 可 视 化 方法 在 数据 挖掘 中 具有 非常 重要 的 地 位 ， 它 是 筛选 数据 寻找 未 知 数据 关系 的 理 
想 方 法 。 另 一 方面 正如 下 面 将 阐述 的 ， 它 也 具有 局 限 性 ， 尤 其 是 对 于 非常 庞大 的 数据 集合 。 

可 以 把 探索 性 数据 分 析 理 解 为 以 数据 驱动 的 方式 生成 假设 (data-driven hypothesis 
generation )。 我 们 从 各 个 角度 审查 数据 ， 目 的 是 发 现 可 以 体现 各 个 实例 或 变量 间 深 层 关系 的 
结构 。 这 一 过 程 与 假设 检验 (hypothesis testing) 大 不 相同 ， 后 者 是 先 提 出 一 个 模型 或 假设 ， 
然后 进行 各 种 统计 处 理 以 判定 数据 出 自 这 一 模型 的 可 能 性 〈 参 见 第 4 章 )。 这 里 “数据 驱动 ” 
的 含义 是 为 了 说 明 是 数据 中 的 模式 引发 了 假设 一 一 这 不 同 于 根据 有 关 数 据 潜在 机 制 的 理论 推 
导出 假设 的 情形 。 这 一 特征 上 暗示 了 对 这 些 假设 进行 检验 的 必要 性 。 这 与 第 7 章 (第 10 章 、 
第 11 章 中 会 再 次 提 到 ) 讨论 的 过 度 拟 合 问题 有 着 密切 的 关系 。 下 面 用 一 个 简单 事例 来 说 明 
这 个 问题 。 

如 果 我 们 从 同一 总 体 中 随机 提取 10 组 样本 ， 每 组 的 容量 为 20， 然 后 测量 某 个 变量 的 值 ， 
这 些 随机 样本 会 有 不 同 的 均值 (由 于 随机 变化 性 )。 我 们 可 以 用 正式 的 检验 来 比较 这 些 均值 。 
假定 无 论 如 何 我 们 只 取 产 生 最 小 和 最 大 均值 的 两 组 样本 ， 并 忽略 其 他 样本 。 对 于 这 些 均值 差 
异 的 检验 很 可 能 是 显著 的 。 如 果 我 们 取 100 个 样本 而 不 是 10 个 ， 那 么 就 更 有 可 能 发 现 最 大 
和 最 小 均值 间 的 显著 差异 。 尽 管 这 些 样本 是 从 同一 总 体 产 生 的 ， 但 是 如 果 我 们 忽略 这 些 均值 
是 100 个 样本 集合 的 最 大 和 最 小 均值 这 一 事实 ， 那 么 我 们 的 分 析 就 是 偏向 于 发 现 差异 的 。 

通常 ， 当 我 们 搜索 模式 时 ， 如 果 不 考 虑 搜索 的 规模 一 一 我 们 已 分 析 的 可 能 存在 的 模式 数 ， 
那么 我 们 就 无 法 检验 所 发 现 的 模式 是 否 是 潜在 分 布 的 真实 属性 〈 相 对 于 样本 的 偶然 属性 )。 
探索 性 数据 分 析 的 非 正式 性 使 这 一 问题 变 得 非常 复杂 -一 一 很 多 情况 下 要 统计 出 已 经 审查 了 多 
少 种 模式 是 不 可 能 的 。 由 于 这 一 原因 ， 科 研 人 员 经 常 使 用 一 个 分 离 的 数据 集合 (与 前 面 的 数 
据 集合 来 自 于 同一 数据 源 ) 并 采用 正式 的 检验 方法 来 验证 模式 的 存在 性 。( 或 者 也 可 以 使 用 
某 些 复杂 的 方法 ， 例 如 第 7 章 介绍 的 交叉 验证 和 样本 复 用 方法 。) 

本 章 分 析 了 用 非 正 式 的 图 形 来 探索 数据 的 方法 ， 该 方法 在 数据 分 析 中 的 广泛 运用 可 以 追溯 到 
很 多 个 时 代 以 前 。 早 期 的 统计 书籍 中 包含 了 许多 这 样 的 方法 。 在 计算 机 出 现 以 前 它 通常 比 其 他 元 
长 的 数字 分 析 方 法 更 实用 。 近 年 来 某 些 领域 的 变革 使 这 些 方法 的 应 用 更 加 广泛 。 和 本 书 中 提 到 的 
大 量 其 他 方法 一 样 ， 这 些 变革 是 由 计算 机 所 引发 的 ， 计 算 机 使 我 们 可 以 用 许多 不 同 的 方式 来 观察 
数据 ， 既 快 又 方便 ， 并 且 已 经 开发 出 了 很 多 功能 强大 的 可 视 化 工具 。 

我 们 将 在 3.2 节 中 讨论 总 结 数据 的 简单 统计 方法 。 在 3.3 节 中 将 讨论 用 可 视 化 方法 探索 单个 
变量 值 的 分 布 。 这 些 工具 已 经 应 用 了 数 个 世纪 (至 少 对 于 小 数据 集 来 说 是 这 样 的 )， 近 年 来 计算 








36 BFE 





机 技术 的 进步 使 其 有 了 更 新 的 发 展 。 此 外 ， 即 便 是 使 用 单 变量 显示 ， 我 们 通常 也 希望 同时 显示 
出 许多 变量 的 单 变量 显示 ， 所 以 我 们 需要 的 是 易于 表达 数据 分 布 主要 特征 的 简洁 表示 。 

3.4 节 将 转 到 如 何 显示 变量 对 之 间 关 系 的 方法 。 最 基本 的 方法 或 许 是 散 点 图 〈scatter 
plot)。 由 于 数据 控 掘 中 所 磁 到 的 数据 集合 经 常 是 很 庞大 的 ， 所 以 散 点 图 并 不 总 是 有 效 的 
有 时 会 被 数据 所 淹没 。 当 然 ， 这 一 法 则 也 适用 于 其 他 图 形 表示 。 

3.5 节 将 超越 一 对 变量 的 情况 ， 描 述 用 于 揭示 多 个 变量 间 关 系 的 工具 。 当 然 ， 所 有 方法 都 不 
是 完美 无 缺 的 ， 除 了 极 少数 的 数据 关系 外 ， 二 维 显示 根本 无 法 完全 表示 出 多 个 变量 间 的 关系 。 

在 3.6 节 中 将 举例 说 明 主 分 量 分 析 〈principal components analysis) 方法 。 这 种 方法 可 以 
被 认为 是 多 维 缩放 分 析 (multidimensional scaling analysis) 方法 的 一 种 特殊 形式 〈 实 际 上 是 
最 基本 的 形式 )。 

关于 数据 可 视 化 的 书籍 数不胜数 (SH 3.8 节 )。 我 们 不 能 指望 在 短 短 一 章 中 讨论 所 有 
的 方法 。 也 有 一 些 用 来 使 数据 可 视 化 的 软件 包 ， 它 们 提供 了 很 多 非常 强大 而 又 灵活 的 图 形 化 
工具 。 





3.2 AAR: 几 个 简单 例子 


在 前 两 章 中 我 们 提 到 过 均值 就 是 对 一 组 数据 的 平均 值 的 简单 概括 。 假 定 x(1)，…，x(n) 
组 成 了 一 个 个 值 的 集合 。 那 么 样本 均值 就 被 定义 为 : 
=F x0)/n (3.1) 


注意 我 们 用 1 来 表示 总 体 的 真正 均值 ， 用 应 来 表示 这 个 均值 的 样本 估计 。 

样本 均值 的 一 个 特征 是 ， 它 与 所 有 数据 值 的 差异 平方 和 是 最 小 化 的 ， 从 这 个 意义 上 来 说 
它 是 这 些 样 本 值 的 “中 心 因此 ， 如 果 有 n 个 数据 值 ， 那 么 均值 就 是 满足 它 的 n TERS 
和 等 于 这 些 数 据 值 之 和 这 一 条 件 的 值 。 

均值 是 一 种 位 置 〈location) 尺度 。 另 一 种 重要 的 位 置 尺 度 是 中 值 (median), FERE 
使 在 其 上 的 数据 点 数 和 在 其 下 的 数据 点 数 相等 的 值 。( 如 果 是 一 个 奇数 ， 那 么 很 简单 。 如 
果 n 是 偶数 ， 那 么 通常 把 中 值 定义 为 两 个 中 间 数 据 值 的 中 点 。》 

数据 中 的 最 普遍 值 被 称 为 最 频 值 (mode)。 有 些 分 布 会 有 多 个 最 频 值 ， 例 如 ， 对 于 某 一 
变量 ， 可 能 有 10 个 对 象 取 值 为 3，10 个 对 象 取 值 为 7， 取 其 他 值 的 对 象 数 都 小 于 10。 这 种 
情况 被 称 为 多 峰 型 (multimodal). 

另外 的 一 些 位 置 尺度 则 侧重 于 数据 值 分 布 的 其 他 方面 。 第 一 四 分 位 值 (quartle) 就 是 大 
于 四 分 之 一 数据 点 的 值 。 第 三 四 分 位 值 就 是 大 于 四 分 之 三 数据 点 的 值 。( 这 里 为 什么 我 们 不 
提 第 二 四 分 位 值 呢 ? 我 们 把 这 个 问题 留 给 读者 。) 类 似 地 ， 有 时 也 会 用 到 十 分 位 值 (decile) 
MA ZAZA (percentile). 

常见 的 还 有 衡量 分 散 性 (despersion) RÆ RU (variability) 的 不 同 尺度 。 包括 标准 
差 (standard deviation) 和 它 的 平方 ， 也 就 是 方差 〈variance )。 方 差 被 定义 为 各 个 数据 值 和 
均值 的 差异 平方 的 平均 值 : l 


67 =F x-y) In (3.2) 
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需要 注意 的 是 既然 均值 使 这 些 差 的 平方 和 最 小 化 ， 那 么 均值 和 方差 之 间 就 存在 着 紧密 的 
关联 。 如 果 / 是 未 知 的 ， 这 是 实践 中 常 出 现 的 情况 ， 那 么 我 们 可 以 用 应 〈 建 立 在 数据 基础 上 
的 估计 来 代替 1/。 在 用 应 来 代替 UL 后 ， 我 们 可 以 用 下 式 得 到 方差 的 无 偏 估计 我们 将 在 第 4 
章 中 讨论 无 偏 估计 的 含义 ): 

F O-A n-d) (3.3) 


i 


标准 差 是 方差 的 平方 根 : 


ô= F 0) -p/n (3.4) 


一 些 应 用 经 常 使 用 的 还 有 四 分 位 值 域 (interquartile range)， 它 是 指 第 三 和 第 一 四 分 位 值 
之 间 的 区 域 。 值 域 (range) 就 是 最 大 和 最 小 数据 点 之 间 的 区 域 。 
WAHE (skewness) 用 来 衡量 一 个 分 布 是 否 具有 单一 而 且 很 长 的 末端 ， 通 常 被 定义 为 : 
> CD- 站 
Seo- 
例如 ， 人 们 收入 的 分 布 通常 表现 为 大 多 数 人 只 赚 很 少 或 中 等 数量 的 钱 ， 只 有 少数 人 有 很 
高 的 收入 一 一 如 比尔 。 盖 欧 。 如 果 一 个 分 布 的 漫长 末端 是 伸 向 数值 增长 方向 的 ， 那 么 我 们 称 
其 为 右倾 斜 (right-skewed)， 反 之 称 其 为 左倾 儿 〈left-skewed)。 在 倾斜 的 分 布 更 加 常见 。 对 
称 分 布 的 倾斜 度 为 零 。 





(3.5) 


3.3 显示 单个 变量 的 一 些 工 具 


直方 图 是 显示 一 元 数据 的 最 基本 工具 之 一 ， 它 显示 了 位 于 各 个 连续 区 间 中 的 变量 值 数 
目 。 对 于 很 小 的 数据 集合 ， 直 方 图 可 能 造成 误导 : 值 的 随机 波动 或 对 区 间 端 点 的 不 同 选择 会 
得 到 截然 不 同 的 直方 图 。 比 如 起 初 看 来 是 有 多 峰 性 的 ， 而 后 却 由 于 区 间 选 择 的 不 同 或 样本 的 
变化 而 消失 了 。 不 过 ， 随 着 数据 集合 的 变 大 ， 这 些 影 响 会 逐步 减 小 。 对 于 一 个 大 的 数据 集合 
来 说 ， 即 便 是 直方 图 的 细微 变化 也 代表 了 数据 分 布 的 真实 特征 。 

图 3-1 显示 了 1996 年 某 种 个 人 信用 卡 持 有 者 使 用 该 信用 卡 在 超市 消费 的 周 数 〈 为 了 回避 商 
业 上 的 敏感 细节 ， 纵 轴 的 标签 被 隐 去 了 )。 在 直方 图 的 左 侧 存在 一 个 很 大 的 波峰 (最 频 值 )， 这 
说 明 大 多 数 人 在 超市 购物 时 不 用 或 很 少 用 信用 卡 。 使 用 信用 卡 一 定 次 数 的 人 数 随 着 使 用 次 数 的 
增 大 迅速 下 降 。 然 而 ， 图 中 所 反映 出 的 数量 比较 大 的 人 群 让 我 们 发 现 了 另 一 个 事实 ， 在 图 表 的 
右边 快 到 末端 处 有 一 个 比 刚才 那 一 波峰 小 的 多 的 波峰 。 显 然 ， 人 们 往往 是 很 有 规律 的 每 周 去 超 
市 购物 一 次 ， 尽 管 这 一 波峰 不 是 位 于 52 周 处 ， 这 可 能 是 由 于 休假 等 中 断 原因 导致 的 。 


Bl 3.1 图 3-2 显示 了 768 位 具有 印第安 比 马 人 血统 的 女性 的 血压 舒张 压 的 直 
方 图 ， 这 一 变量 是 为 建立 预测 糖尿 病 的 分 类 模型 而 收集 的 八 个 变量 中 的 一 个 . 这 一 
数据 集合 的 文档 (可 以 从 UCI 机 器 学 习 在 线 数据 文档 中 得 到 ) 指出 该 数据 集合 不 
存在 残缺 值 ， 然 而 ， 粗 略 地 扫 视 一 下 直方 图 发 现 有 35 个 被 测试 者 的 血压 值 为 零 ， 
这 显然 是 不 可 能 的 ， 除 非 接 受 检验 时 她 们 已 经 死 了 。 一 种 可 能 的 解释 是 这 35 个 人 
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事实 上 错过 了 测试 ，“0” 值 就 是 用 来 表示 错过 测试 的 代码 。 因 为 很 多 变量 ( 例如 三 
头 肌 折 闪 肌肤 厚度 ) 值 都 是 不 可 能 为 零 的 ， 所 以 这 一 解释 是 有 可 能 的 . 
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虽然 直方 图 有 不 足 ， 但 是 在 更 详细 建 模 前 使 用 它 来 探索 数据 是 非常 有 价值 的 。 
在 印第安 比 马 人 数据 的 案例 中 ， 直 方 图 清楚 地 显示 出 了 数据 中 和 被 测量 变量 的 物理 
解释 相 了 矛盾 的 可 疑 变量 值 。 在 进行 数据 挖 握 之 前 做 一 下 这 样 的 简单 检查 总 是 明智 
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的 。 因 为 一 旦 我 们 所 应 用 的 算法 无 法 发 现 如 上 的 数据 质量 问题 ， 那 么 这 些 问题 很 可 
能 会 以 一 种 无 法 预知 的 方式 焉 曲 我 们 的 分 析 。 


可 以 通过 平滑 估计 来 弥补 直方 图 的 不 足 之 处 。 应 用 最 广泛 的 方法 之 一 便 是 核 估 计 〈Kkernel 
estimate ) 。 

核 估计 对 每 个 观察 数据 点 的 贡献 相对 其 邻 域 进行 平滑 处 理 〈 在 第 9 章 中 我 们 还 会 讨论 核 
估计 )。 考 虑 一 个 单一 变量 xX， 我 们 对 其 测 出 了 一 系列 值 {x(1)，…，x(n)}。 数 据点 xD 对 在 
某 一 点 x* 的 估计 的 贡献 依赖 于 x(i) 和 x* 间 的 距离 有 多 远 。 可 以 做 出 贡献 的 范围 依赖 于 所 选 核 
函数 的 形状 以 及 相应 的 核 宽度 。 如 果 用 天 代表 核 函 数 ， 用 h 代表 它 的 宽度 或 者 叫 带 宽 )， 
那么 任意 一 点 x 处 的 估计 密度 可 以 表示 为 : 

a 1% ,x— x(i) 

res (3.6) 
其 中 | K@dt=1, 以 保证 估计 ftx) 本 身 的 积分 为 1 (也 就 是 说 ， 它 符合 密度 函数 的 基本 条 件 )， 
而 且 通 常 把 核 函数 下 选 为 波峰 位 于 0 的 平滑 单 峰 函 数 。 核 估计 的 质量 受 K 形状 的 影响 比 受 有 
的 影响 小 。 

KK 的 一 种 常见 形式 就 是 正 态 (高斯) 曲线 ，h 就 是 它 的 分 布 参数 标准 差 )， 也 就 是 : 
Lt. . 

K(t,h) =Ce 2* (3.7) 
其 中 C 是 一 个 用 于 标准 化 的 常量 ，! = x - xD 是 查询 点 x SEER x(i) 之 间 的 距离 。 带 宽 h 等 
价 于 高 斯 核 函数 的 标准 差 〈 也 就 是 宽度 ) 0。 

有 许多 正规 的 方法 可 以 用 来 优化 这 些 估 计 与 产生 数据 的 未 知 分 布 的 拟 合 情 况 ， 但 是 ， 本 
章 中 我 们 感 兴趣 的 是 图 形 过 程 。 这 种 估计 的 优点 在 于 通过 改变 h 的 值 ， 我 们 可 以 寻找 样本 分 
布 形状 的 独 有 特征 。 小 的 h 值 产生 非常 尖 利 的 估计 根本 不 平滑 )， 大 的 h 值 会 导致 估计 过 
于 平滑 。 h 值 的 极限 就 是 当 h 一 0 时 数据 点 的 经 验 分 布 (也 就 是 , 关于 每 个 数据 点 x(i) 的 “delta 
RAC, FL h 一 co 时 的 均匀 平滑 分 布 。 这 两 种 极端 情况 分 别 对 应 于 完全 依赖 观察 数据 除了 
观察 到 的 数据 点 外 不 考虑 任何 其 他 量 ) 和 彻底 忽略 观察 数据 。 

图 3-3 显示 了 参加 骨 质 朴 松 症 研究 的 856 位 老年 女性 体重 的 密度 核 估计 。 该 分 布 表现 出 
明显 的 右 向 倾斜 性 ， 并 且 存 在 多 峰 性 的 迹象 。 很 明显 经 典 统计 中 经 常 使 用 的 正 态 分 布 假定 是 
不 适用 于 本 例 的 。( 这 并 不 是 说 基于 该 假设 的 统计 技术 已 经 失效 了 。 很 多 情况 下 该 理论 是 渐 
进 性 的 一 一 是 以 中 心 极限 定理 所 确定 的 正 态 性 为 基础 的 。 在 本 例 中 ， 做 出 如 下 假定 对 实践 目 
的 是 合理 的 ，856 个 接受 试验 者 的 样本 均值 会 因 样本 的 变化 依照 正 态 分 布 而 变化 。) 

图 3-4 显示 了 当 为 平滑 参数 h 取 一 个 更 大 值 时 的 效果 。 很 难 回答 这 两 个 核 估 计 哪 一 
个 更 “好 ” 些 。 图 3-4 更 保守 些 ， 因 为 它 对 观察 到 数据 的 局 部 (可 能 是 随机 性 的 波动 
给 予 的 信任 度 更 小 。 

尽管 这 一 节 的 焦点 在 于 显示 单个 变量 的 特征 ， 但 很 多 时 候 我 们 也 希望 把 单个 变量 的 值 分 
成 多 个 不 同 的 组 ， 然 后 分 别 显示 出 每 个 组 ， 目 的 是 对 各 个 组 进行 比较 。( 当然， 我 们 也 可 以 
把 这 种 情况 看 作 是 二 变量 的 情况 ， 其 中 一 个 变量 是 分 组 因子 。) 我 们 可 以 对 每 个 组 分 别 使 用 
直方 图 、 核 曲线 以 及 其 他 一 维 显 示 方 法 。 然 而 ， 如 果 组 数 超过 两 三 个 时 ， 那么 处 理 起 来 便 会 
比较 困难 。 对 于 这 种 情形 ， 另 一 种 有 用 的 替代 显示 方法 是 框 须 图 (box and whisker plot). 
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图 3-3 ”856 位 老年 女性 体重 (kg) 的 密度 核 估计 
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图 3-4 “与 图 3-3 一 样 ， 不 过 更 平滑 


尽管 框 须 图 有 很 多 个 版 本 ， 但 是 其 核心 思想 是 相同 的 。 框 包含 了 数据 的 主要 定义 域 一 一 
例如 第 一 四 分 位 值 和 第 三 四 分 位 值 之 间 的 区 间 。 横 跨 框 的 一 条 直线 表示 出 某 个 位 置 尺度 一 一 
通常 是 数据 的 中 值 。 框 末端 的 须 状 投影 表示 实验 分 布 的 末端 散布 范围 。 
下 面 用 图 3-2 中 糖尿 病 数据 的 子 集 来 举例 说 明 框 须 图 。 图 3-5 画 出 了 四 幅 框 须 图 ， 每 幅 
都 包含 了 数据 中 两 个 类 “健康 的 (1) 和 患 糖 尿 病 的 《2)) 的 各 自 框 须 图 。 图 中 清晰 地 表 不 
出 了 均值 、 分 散 度 和 倾斜 度 是 如 何 随 分 组 变量 值 的 变化 而 变化 的 。 
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图 3-5 ”印第安 比 马 人 糖尿 病 数据 集 的 四 个 不 同 变量 的 框 须 图 。 图 中 为 每 个 变量 分 别 画 
出 了 健康 对 象 〈 分 类 标签 为 1) 和 患 糖 尿 病 对 象 〈 分 类 标签 为 2) 的 框 须 图 。 每 
个 框 的 上 边界 和 下 边界 分 别 表示 数据 的 较 高 和 较 低 的 四 分 位 值 。 框 中 的 水 平 线 
表示 数据 的 中 值 。 须 从 每 个 框 的 两 端 延伸 到 四 分 位 值 域 的 1.5 倍 处 。 位 于 须 范围 
外 的 所 有 数据 点 是 分 别 单独 标 出 的 〈 尽 管 有 些 点 是 重 登 的 ， 比 如 值 为 0 时 的 点 ) 


34 显示 两 个 变量 间 关 系 的 工具 


散 点 图 是 同时 表示 两 个 变量 的 标准 工具 。 图 3-6 显示 了 用 于 描述 信用 卡 偿还 模式 (细节 
是 保密 的 ) 的 两 个 变量 之 间 的 关系 。 从 这 张 图 可 以 非常 清楚 地 看 出 两 个 变量 间 的 关系 是 很 紧 
密 的 一 一 当 一 个 变量 的 值 很 高 ( 低 ) 时 ， 另 一 个 变量 的 值 也 很 可 能 很 高 〈 低 )。 然 而 ， 也 有 
相当 数量 的 人 不 符合 这 一 模式 ， 当 一 个 变量 值 很 高 时 另 一 个 变量 值 很 低 。 为 什么 这 些 个 体 表 
现 出 异常 ， 这 或 许 正 是 值得 我 们 去 研究 的 。 

不 幸 的 是 ， 在 数据 挖掘 中 ， 散 点 图 并 不 总 是 这 么 有 用 。 如 果 数 据点 数 太 多 ， 那 么 我 们 发 
现 自己 面 对 的 将 是 一 个 几乎 纯 黑 的 长 方形 。 图 3-7 说 明了 这 一 问题 。 该 图 画 出 了 来 自 一 项 银 
行 信贷 研究 的 96 000 个 数据 点 的 散 点 图 。 图 中 很 难 辨别 出 任何 明显 的 结构 ， 尽 管 它 似乎 显 
示 出 后 来 申请 者 的 年 龄 通常 比较 大 。 从 另 一 方面 来 说 ， 如 果 右 边 的 样本 数 较 大 ， 那 么 同样 也 
可 以 导致 图 中 右 侧 的 纵 轴 较 大 值 明显 较 多 。 事 实 上 对 这 些 数据 的 线性 回归 拟 合 表明 它们 具有 
很 小 但 非常 显著 的 向 下 倾斜 性 。 
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图 3-7 包含 96 000 个 数据 点 的 散 点 图 。 图 中 很 多 点 是 重 登 的 。 每 个 数据 点 表示 一 个 
独立 的 信贷 申请 人 。 纵 轴 表 示 申 请 人 的 年 龄 ， 水 平 轴 表 示 提 出 申请 的 日 期 


即使 情况 并 不 是 如 此 极端 ， 如 果 散 点 图 对 应 的 数据 点 数量 很 大 ， 那 么 它 隐藏 的 特征 可 能 
仍然 比 它 表现 出 的 特征 要 多 。 图 3-8 描绘 了 过 去 某 一 年 中 用 某 种 信用 卡 买 汽油 的 周 数 相对 该 
信用 卡 被 在 超市 中 使 用 周 数 的 散 点 图 〈 每 个 数据 点 代表 一 张 信 用 卡 )。 这 两 个 变量 问 显然 存 
在 关联 ， 但 实际 的 关联 系数 0.482 比 这 里 显示 出 的 要 高 许多 。 这 张 图 表 之 所 以 容易 使 人 误解 
是 因为 它 在 底部 左边 转角 处 隐藏 了 大 量 的 重 营 数 据点 一 一 这 里 一 共 表 示 了 10 000 个 用 户 。 
图 3-1 所 表示 出 的 双 峰 性 在 这 张 图 中 也 可 以 辨别 出 ， 不 过 没有 图 3-1 那么 清晰 。 

图 3-8 中 还 有 一 个 很 有 趣 的 明显 现象 。 在 加 油 站 使 用 该 信用 卡 的 周 数 分 布 是 向 超市 变量 
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低 值 区 域 倾 斜 的 ， 但 是 对 于 较 高 值 ， 却 是 相当 均匀 的 。 如 何 解 释 这 个 现象 呢 ? (当然 ， 应 该 
记 住 前 面 所 说 明 的 一 点 ， 这 种 表面 现象 需要 由 数据 点 的 重 登 来 解释 。) [ 64] 








加 油 站 








图 3-8 ”数据 点 重 登 隐藏 了 真实 的 关联 程度 


等 高 线 图 可 以 克服 前 面 讨论 的 一 些 问 题 。 不 过 需要 注意 的 是 ， 要 建立 有 效 的 二 维 等 高 线 
图 需要 建立 二 维 密度 评估 ， 使 用 的 方法 类 似 于 公式 3.6 的 核 方法 的 二 维 推广 。 这 再 次 涉及 到 
选择 带宽 的 问题 , 但 是 这 次 是 在 二 维 环境 中 。 图 3-9 用 等 高 线 显示 出 了 图 3-7 所 显示 的 96 000 
个 数据 点 。 通 过 该 图 可 以 清楚 地 看 出 图 3-7 中 难以 辨别 的 某 些 倾向 。 例 如 ， 越 靠近 图 的 右 侧 ， 
数据 点 的 密度 越 大 ， 纵 轴 的 明显 渐 增 分 布 是 由 于 这 个 区 域 的 数据 点 更 加 集中 所 导致 的 。 数 据 
的 垂直 倾斜 性 在 这 幅 图 中 也 十 分 明显 。 数 据 的 单 峰 性 以 及 单一 波峰 的 位 置 在 图 3-7 中 是 无 法 “|65 | 
看 出 的 ， 但 在 图 3-9 中 却 可 以 清楚 地 看 出 来 。 注 意 ， 因 为 这 幅 图 中 水 平 轴 是 时 间 ， 上 所 以 另 一 
种 可 选 的 数据 显示 方法 是 画 出 随时 间 推 进 的 固定 条 件 概率 密度 等 高 线 。 
当 两 个 变量 中 的 一 个 是 时 间 时 ， 还 可 以 使 用 其 他 的 标准 显示 形式 ， 以 显示 出 另 一 个 变量 
值 随时 间 推 进 的 变化 情况 。 这 对 于 探测 数据 走势 和 了 解 它 们 与 预期 或 标准 行为 的 偏离 情况 是 
非常 有 效 的。 图 3-10 画 出 了 代表 1985 年 至 1993 F (ERAF) 英国 发 行 信用 卡 数量 的 各 
个 数据 点 。 图 中 用 一 条 光滑 曲线 来 拟 合 这 些 数据 ， 以 强调 数据 关系 的 主要 特征 。 显 然 大 约 在 
1990 年 某 种 原因 终止 了 此 前 的 线性 增长 势头 。 事 实 上 ， 原 因 是 在 1990 年 和 1991 年 信用 卡 
开始 需要 缴纳 年 费 ， 所 以 许多 用 户 将 他 们 持 有 的 信用 卡 数量 减少 到 一 张 。 [66] 
图 3-11 显示 了 英国 航空 公司 自 1963 年 1 月 到 1970 4 12 月 间 每 月 飞行 英里 数 的 曲线 。 
从 该 图 中 可 以 立即 看 出 几 个 和 我 们 的 预期 一 致 的 明显 模式 ， 比 如 逐步 增长 的 总 体 趋 势 和 周期 
性 〈 夏 季 的 较 大 波峰 和 新 年 前 后 的 较 小 波峰 )。 该 图 还 显示 出 了 夏季 高 峰 的 有 趣 分 又 ， 这 表 
明 旅 行者 有 更 喜欢 在 夏季 的 初期 和 末期 而 不 是 中 期 出 游 的 趋势 。 
图 3-12 是 说 明 两 个 变量 之 一 为 时 间 的 图 形 表示 的 优点 的 又 一 例子 。 在 1930 年 的 2 月 至 
6 月 间 , 在 苏格兰 的 拉 纳 克 和 郡 进行 了 一 个 实验 ， 目 的 是 调查 在 儿童 食谱 中 添加 牛奶 是 否 有 “ 增 
强 体质 、 利 于 健康 以 及 提高 智力 ”的 作用 〈Leighton and McKinlay，1930)。 在 这 一 研究 中 ， 
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把 20 000 名 儿童 分 配 到 三 个 组 中 , 并 让 5 000 名 儿童 每 天 饮用 四 分 之 三 品 脱 2 的 生 牛 奶 , 5 000 
名 儿童 每 天 饮用 四 分 之 三 品 脱 的 经 巴 氏 灭 菌 法 处 理 的 牛奶 ， 另 10 000 名 儿童 构成 一 个 控制 
组 ， 在 他 们 的 饮食 中 没有 牛奶 。 在 实验 开始 时 和 四 个 月 后 结束 时 对 每 个 儿童 各 称 一 次 体重 。 
研究 者 的 目标 是 考察 三 组 儿童 的 成 长 情况 是 否 有 差异 。 
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图 3-9 用 等 高 线 来 显示 图 3-7 中 的 数据 
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图 3-10 ”英国 的 信用 卡 流通 数量 曲线 


图 3-12 和 画 出 了 控制 组 中 女孩 的 平均 体重 相对 她 们 所 在 组 的 平均 年 龄 的 曲线 。 第 一 个 点 
对 应 最 小 年 龄 组 (平均 年 龄 5.5 岁 ) 在 实验 开始 时 的 体重 ， 第 二 个 点 对 应 该 组 在 四 个 月 后 的 


© 译注 : 1 品 脱 =0.568 升 。 
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体重 。 第 三 个 点 和 第 四 个 点 对 应 第 二 个 年 龄 组 ， 依 次 类 推 。 所 有 的 点 被 连 成 了 一 条 线 以 便于 
观察 其 形状 。 显 然 实验 中 所 有 组 的 形状 都 很 相似 。 
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图 3-11 19 世纪 60 年 代 英国 航空 公司 飞行 英里 数 相 对 时 间 的 变化 曲线 
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图 3-12 10 000 名 学 龄 儿童 体重 随时 间 变化 的 曲线 。 台 阶 状 模式 使 数据 测量 过 程 中 的 问题 明显 暴露 出 来 


该 图 直接 显示 出 了 一 种 令 人 意 想不到 的 从 数据 表格 中 无 法 看 到 的 模式 。 我 们 本 以 为 会 得 
到 一 条 光滑 的 曲线 ， 但 图 中 显然 存在 很 多 台阶 。 似 乎 是 每 个 年 龄 组 的 孩子 都 没有 达到 预期 的 
体重 增长 。 对 这 种 形状 有 许多 可 能 的 解释 。 也 许 儿 童 在 上 半年 长 得 比 下 半年 慢 。 然 而 ， 关 于 
身高 的 类 似 曲 线 却 没有 表现 出 间歇 性 成 长 的 特征 ， 所 以 我 们 需要 一 种 更 周密 的 解释 来 说 明 为 
什么 身高 的 增长 是 均一 的 而 体重 的 增长 是 间歇 的 。 另 一 种 可 能 的 解释 是 孩子 们 也 许 穿着 衣服 
在 测 体重 。 但 是 报告 上 说 :“ 称 体重 时 ， 所 有 孩子 是 脱 去 萄 子 或 皮鞋 只 穿着 普通 户外 衣服 的 。 
男孩 们 还 被 要 求 拿 出 他 们 口袋 中 的 各 种 小 物品 ， 而 且 外 套 或 围巾 等 等 也 是 被 脱 掉 的 。 如 果 发 
现 哪 个 孩子 穿 了 三 或 四 件 运 动 衫 ， 那 么 会 脱 下 其 余 的 只 剩 一 件 ”。 然而， 这 种 解释 还 是 有 可 
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能 的 ， 因 为 无 论 如 何 夏 季 服 装 比 冬季 服装 要 轻 。 这 个 例子 说 明了 数据 挖掘 发 现 的 模式 虽然 不 
能 完全 并 清楚 被 调查 的 现象 ， 但 是 发 现 数据 的 反常 和 缺陷 也 是 同样 有 价值 的 。 


3.5 ”显示 两 个 以 上 变量 间 关 系 的 工具 


因为 纸张 和 电脑 屏幕 都 是 平面 的 ， 所 以 它们 非常 适合 于 显示 二 维 数据 ， 却 不 适合 于 显示 
多 维 的 数据 。 对 于 多 维 数据 ， 我 们 需要 以 某 种 投影 方式 将 其 转 到 二 维 平面 ， 通 过 变换 来 表示 
其 他 维 的 特征 。 沿 这 一 路 线 的 最 明显 做 法 就 是 分 析 所 有 变量 对 间 的 关系 ， 将 3.3 节 中 描述 的 
FLASHED BS FEM (scatterplot matrix ). 

图 3-13 就 是 一 个 散 点 图 矩阵 的 例子 ， 它 比较 了 近 10 年 来 209 个 计算 机 CPU 的 特性 、 
性 能 尺度 和 相对 性 能 尺度 。 其 中 的 变量 为 时 钟 周期 、 最 小 内 存 (KB)、 最 大 内 存 (KB), M 
速 绿 存 大 小 “KB)、 最 小 通道 数 、 最 大 通道 数 、 相 对 性 能 和 估计 出 的 相对 性 能 (相对 于 IBM 
370/158-3)。 尽 管 一 些 变量 对 是 无 关 的 ， 但 是 另 一 些 却 表 现 出 很 强 的 相关 性 。 画 刷 brushing) 
法 使 我 们 可 以 通过 突出 每 张 散 点 图 中 对 应 同一 对 象 的 点 的 方式 来 强调 散 点 图 中 的 数据 点 。 这 
对 于 交互 式 探索 数据 是 非常 有 用 的 。 

当然 ， 散 点 图 矩阵 并 非 真正 的 多 元 解决 方案 ， 而 是 多 重 的 两 元 解决 方案 ， 它 使 多 元 数据 
投影 到 多 个 二 维 图 中 (在 每 个 二 维 图 中 忽略 了 所 有 其 他 变量 )。 这 种 投影 必然 会 丢失 信息 。 
设想 有 一 个 由 8 个 小 立方 体 构成 的 大 立方 体 。 如 果 在 相 错 开 的 子 立方 体 中 数据 点 是 均匀 分 布 
的 ， 其 他 子 立 方 体 为 室 89， 那 么 所 有 三 个 一 维 投影 和 所 有 三 个 二 维 投影 都 是 均匀 分 布 的 。( 这 
种 异 或 〈exclusive-or) 结构 会 给 感知 器 带 来 很 大 困难 ， 感 知 器 是 神经 网 络 的 前 身 ， 我 们 将 在 
第 5 章 和 第 11 章 中 讨论 。) 

当 涉 及 两 个 以 上 的 变量 时 ， 交 互 式 绘图 很 流行 ， 因 为 这 样 我 们 就 可 以 通过 旋转 投影 的 方 
向 来 搜索 合适 的 结构 。 一 些 系 统 甚至 可 以 让 软件 进行 随机 旋转 ， 我 们 只 要 观察 并 等 待 感 兴趣 
的 结构 出 现 。 虽 然 理论 上 这 是 一 个 非常 好 的 想法 ， 但 是 当 看 着 数据 像 云 打 一 样 随 着 视角 转换 
移动 时 ， 这 种 兴奋 将 很 快 就 会 变 得 平淡 无 味 ， 因 此 我 们 需要 更 加 结构 化 的 方法 。 第 11 章 中 
介绍 的 投影 跟踪 (projection pursuit) 就 是 一 种 这 样 的 方法 。 

AL (trellis) 图 也 是 以 多 个 二 元 图 为 基础 的 。 不 过 ， 该 方法 不 再 是 为 每 对 变量 面 出 一 
幅 散 点 图 ， 而 是 固定 针对 一 对 要 显示 的 特定 变量 ， 然 后 以 其 他 一 个 或 多 个 变量 为 条 件 画 出 一 
系列 散 点 图 。 

图 3-14 所 示 为 疗 痢 病 发 作 数 据 的 格 架 图 。 每 幅 图 的 横 轴 代 表 二 周 内 58 个 病人 发 作 的 次 
数 ， 纵 轴 代 表 在 随后 二 周 内 这 些 人 的 发 作 次 数 。 左 侧 的 两 幅 图 对 应 的 是 男性 病人 ， 右 侧 的 两 
幅 图 对 应 的 是 女性 病人 。 靠 上 的 两 幅 图 对 应 的 年 龄 在 29 到 42 岁 之 间 ， 靠 下 的 两 幅 图 对 应 的 
年 龄 是 18 到 28 岁 之 间 。( 原 始 数据 集中 还 包括 一 个 发 作 次 数 高 得 多 的 患者 。 我 们 将 其 删除 
了 ， 以 便 更 清晰 地 观察 其 他 对 象 结果 间 的 关系 。) 从 这 些 图 中 我 们 可 以 看 到 年 轻 病 人 的 平均 
发 作 次 数 比 年 长 病人 要 低 。 这 些 图 还 暗示 了 联系 y 和 x 轴 的 最 佳 拟 合 直线 的 斜率 间 可 能 存在 
差异 ， 不 过 我 们 必须 进行 正式 的 检验 才能 确信 这 些 差 异 确实 存在 。 

还 可 以 用 其 他 任何 形式 的 子 图 来 产生 格 架 图 。 也 就 是 说 除了 在 每 个 单元 中 用 散 点 图 外 ， 
我 们 还 可 以 用 直方 图 、 时 序 图 、 等 高 线 图 或 者 其 他 任何 类 型 的 图 形 。 


O 即 4 个 立方 体 为 室 ，4 个 立方 体 均匀 充满 数据 点 ， 空 的 与 非 空 的 相 重 登 。 一 一 译 者 注 
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图 3-13 ”计算 机 CPU 数据 的 散 点 图 矩阵 


另 一 种 显示 多 元 数据 的 完全 不 同 的 方法 是 使 用 图 标 (icon)， 图 标 是 一 些 很 小 的 图 ， 其 
不 同 特征 的 大 小 是 由 特定 变量 的 值 决定 的 。 其 中 星 形 图 标 是 最 为 流行 的 。 在 星 形 图 标 中 ， 相 
对 于 原点 的 不 同方 向 对 应 不 同 的 变量 ， 投 影 在 这 些 方向 上 的 半径 长 度 对 应 于 变量 的 幅度 。 图 
3-15 显示 了 一 个 例子 。 其 中 的 数据 是 这 样 得 到 的 ， 首 先 钴 入 地 球 表面 深层 并 等 间隔 的 采集 53 
个 矿石 样本 ， 然 后 测定 出 这 些 样 本 的 12 种 化 学 属性 。 

另 一 种 常见 的 图 标 图 是 Chernoff 面容 (Chernoff's face), 很 多 这 方面 的 入 门 级 教材 经 常 
讨论 它 。 在 这 些 图 中 ， 卡 通 画 面部 特征 的 尺寸 (段子 的 长 度 、 笑 的 程度 、 眼睛 的 形状 等 等 ) 
代表 了 各 个 变量 的 值 。 这 种 方法 所 依据 的 原则 是 ， 人 类 的 眼睛 特别 善于 识别 和 区 分 面容 。 这 
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种 方法 非常 有 趣 ， 但 这 种 图 很 少 用 于 严肃 的 数据 分 析 ， 因 为 在 实践 中 当 卡 通 面容 超过 一 定数 
量 后 ， 这 种 方法 工作 的 就 不 那么 好 了 。 通 常 ， 图 标 显示 只 适用 于 少数 实例 的 情况 ， 因 为 需要 
用 眼睛 分 别 浏览 每 一 个 实例 。 





























10 20 30 40) : 
统计 1 
图 3-14” 疗 病 病 发 作 情况 数据 的 格 架 图 


平行 坐标 图 以 平行 的 坐标 轴 来 显示 变量 ， 用 直线 连接 起 每 个 实例 的 值 ， 这 样 每 个 实 
例 便 被 表示 为 一 条 折线 。 图 3-16 显示 了 这 样 的 一 幅 图 ， 所 画 的 是 58 RAA REK 
数 的 四 次 重复 测量 结果 ， 每 次 的 测量 时 段 是 两 周 。 这 些 数据 明显 是 倾斜 的 ， 可 以 用 泊 松 
分 布 (参见 附录 ) 来 对 其 建 模 。 由 于 数据 集合 不 是 很 大 ， 因 此 我 们 可 以 看 出 每 个 病人 的 
轨 线 。 

另 一 种 代表 维度 的 方法 是 使 用 彩色 。 线 型 也 可 以 达到 相同 的 目的 ， 就 像 上 面 的 平行 坐标 
图 那样 。 

用 一 种 方法 完全 解决 所 有 的 多 元 数据 显示 问题 是 不 可 能 的 。 哪 种 方法 最 适用 取决 于 具体 
数据 和 要 寻找 的 结构 。 


36 ” 主 分 量 分 析 


散 点 图 把 多 元 数据 投影 到 仅 由 两 个 变量 定义 的 二 维 空间 。 这 使 我 们 可 以 成 对 的 分 析 变量 问 
关系 ， 不 过 这 样 的 简单 投影 可 能 会 隐藏 更 复杂 的 关系 。 要 分 析 这 些 更 复杂 的 关系 就 要 沿 不 同方 
向 进行 投影 ， 方 向 是 由 变量 的 加 权 线性 组 合 所 定义 的 《例如 沿 2x + 3%+ 为 所 定义 的 方向 )。 

如 果 仅 有 几 个 变量 ， 那 么 手工 旋转 数据 分 布 搜索 有 趣 方向 还 是 可 行 的 。 然 而 对 于 较 多 变量 
的 场合 ， 最 好 还 是 让 计算 机 进行 搜索 。 为 了 实现 这 个 目的 ， 我 们 必须 定义 “有 趣 ” 投 影 的 特征 ， 
这 样 计算 机 才 知 道 什么 时 候 已 经 找到 了 要 找 的 东西 。 投 影 跟 踪 方 法 projection pursuit method) 


HA D 


就 是 建立 在 让 计算 机 去 寻找 感 兴趣 方向 这 一 一 般 原 则 基础 上 的 。( 然 而 ， 这 种 技术 所 和 需 的 运算 量 
非常 大 ， 在 第 11 章 中 讨论 回归 时 我 们 将 回 过 头 来 继续 介绍 投影 跟踪 法 。) 
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3-15 星 图 示例 


然而 ， 对 于 一 种 特例 情况 一 一 对 “有 趣 ” 方 向 的 一 种 特殊 定义 一 一 可 以 得 到 计算 效率 很 高 
的 明确 解 。 也 就 是 当 我 们 向 这 个 二 维 平面 投影 时 ， 数 据点 和 它们 在 该 平面 上 的 投影 的 差异 平方 
和 比 向 其 他 平面 投影 时 更 小 。( 为 了 方便 起 见 ， 这 里 我 们 使 用 二 维 投影 ， 但 通常 我 们 可 以 使 用 大 
维 投影 ，1 <k < p-1。) 可 以 证 明 由 以 下 线性 组 合 决定 的 二 维 平面 就 是 这 样 的 平面 ，(1) R 
有 最 大 样本 方差 的 变量 的 线性 组 合 ，(2) 与 第 一 个 线性 组 合 无 关 的 具有 最 大 方差 的 线性 组 合 。 
因此 这 里 是 按 数据 的 最 大 变化 性 (maximum variability) 来 定义 “有 趣 ” 性 的 。 

当然 ， 我 们 可 以 进一步 推进 这 一 过 程 ， 寻 找 与 所 有 已 选 线性 组 合 无 关 的 使 方差 最 大 化 的 
其 他 线性 组 合 。 通 常 ， 如 果 幸 运 的 话 ， 我 们 仅 可 以 发 现 几 个 可 以 精确 描绘 数据 的 这 种 线性 组 
合 (“分 量 ”)。 下 文 将 介绍 这 一 过 程 的 数学 描述 。 这 里 我 们 的 目标 是 捕捉 数据 的 内 在 变化 性 。 
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这 是 降低 数据 集合 维度 的 一 种 有 效 方式 ， 这 样 既 可 以 使 数据 易于 解释 ， 又 可 以 避免 过 度 拟 合 
并 为 后 续 分 析 做 准备 。 
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假定 X 是 一 个 nXp 的 数据 矩阵 ， 行 代表 实例 〈 每 行 是 一 个 数据 向 量 x(i))， 列 代表 变量 。 
严格 来 说 ， 矩 阵 的 第 i 行 是 数据 向 量 x(i) 的 转 置 x*?， 因 为 习惯 上 是 把 数据 向 量 看 作 是 px1 的 
列 向 量 而 不 是 1Xp 的 行 向 量 。 此 外 ， 假 定 X 是 以 均值 为 中 心 的 (mean-centered)， 这 样 每 个 
变量 的 值 都 是 相对 于 这 个 变量 的 样本 均值 的 (也 就 是 说 每 列 都 已 经 减 去 了 这 个 估计 均值 )。 

Ba 为 当 X 沿 其 投影 时 会 使 方差 最 大 化 的 pX1 列 向 量 〈 现 在 还 不 知道 )。 那 么 任何 特 
定数 据 向 量 x 的 投影 就 是 线性 组 合 ax= Da 。 注 意 我 们 可 以 将 处 中 所 有 数据 向 量 投 
影 到 a 的 投影 值 表 示 为 Xa (nXp 乘 pX1， 产 生 一 个 nX1 的 投影 值 列 向 量 )。 此 外 ， 我 们 可 
以 将 党 a 投影 的 方差 定义 为 : 











c? =(Xa)! (Xa) 
=a’ X'Xa (3.8) 


=a Va 
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其 中 V=XIX 是 数据 的 pXp WIZER CHT X 的 均值 为 0)， 和 第 2 章 所 定义 的 一 样 。 因 
此 ， 我 们 可 以 将 cz (我 们 要 最 大 化 的 投影 数据 的 方差 (标量 )) 表示 为 a 和 数据 协 方差 矩 
MeV 的 函数 ， 

当然 ， 直 接 最 大 化 02 是 没有 意义 的 ， 因 为 通过 增 大 a 的 各 元 素 可 以 无 限制 的 增 大 aa 。 
所 以 必须 强加 上 一 些 约束 ， 我 们 对 向 量 施加 一 个 标准 化 约束 使 aa = 1。 

有 了 这 个 标准 化 约束 ， 我 们 便 可 以 把 这 个 最 优化 问题 转变 为 使 以 下 这 个 量 最 大 化 ; 





u=a Va— A(a a—l) (3.9) 
这 里 4 是 拉 格 朗 日 乘 子 (Lagrange multiplier)。 然 后 对 a 求 导 得 到 : 
dU -2Va_2ha=0 (3.10) 
da 
这 样 便 得 到 了 熟悉 的 特征 值 形式 : 
(V-ADa=0 (3.11) 


因此 ， 第 一 主 分 量 a 就 是 与 协 方差 矩阵 V 的 最 大 特征 值 联系 的 特征 向 量 。 而 且 ， 第 二 
主 分 量 (和 具有 最 大 投影 方差 的 第 一 主 分 量 正 交 的 方向 ) 就 是 V 的 第 一 大 特征 值 所 对 应 的 
特征 向 量 ， 依 次 类 推 (第 大 特征 值 的 特征 向 量 对 应 于 第 个 主 分 量 方向 )。 

当然 ， 在 实践 中 我 们 可 能 对 投影 到 二 维 以 上 的 情况 感 兴趣 。 这 种 投影 模式 的 一 个 基本 属性 
是 如 果 数 据 投影 到 前 个 特征 向 量 ， 那 么 投影 数据 的 方差 可 以 被 表示 为 Aj ， 其 中 和 是 第 


个 特征 值 。 同 样 ， 只 使 用 前 上 个 特征 值 来 近似 真实 数据 矩阵 X 的 误差 平方 可 以 被 表示 为 : 
P 
> j=k+l Àj 
P 
1=1 4 


因此 ， 选 择 主 分 量 的 适当 个 数 的 一 种 方法 是 增 大 直到 这 个 误差 平方 小 于 某 个 可 接受 
的 程度 。 对 于 多 维 数据 集 ， 各 个 变量 经 常 是 密切 关联 着 的 ， 因 此 以 相当 少 的 主 分 量 〈 比 如 说 
5 或 10 个 ) 捕获 90% 或 更 多 的 数据 变化 性 并 不 稀奇 。 

基于 这 一 背景 的 一 种 有 效 可 视 手 段 是 碎 石 堆 图 (scree plot) 显示 出 每 个 特征 值 所 解 
释 出 的 方差 的 量 。 它 必然 是 随 分 量 数 非 上 升 的 ， 而 且 我 们 希望 它 呈现 出 突然 的 向 零下 降 。 对 
前 面 介绍 的 计算 s 机 CPU 数据 的 相关 和 矩阵 主 分 量 分 析 得 到 的 特征 值 正比 于 63.26、10.70、 
10.30、6.68、5.23、2.18、1.31 和 0.34 (参见 图 3-17)。 从 第 一 到 第 二 特征 值 的 变化 是 很 剧烈 


(3.12) 





的 ， 但 之 后 便 逐 步 下 降 了 。( 对 应 于 八 个 变量 的 第 一 分 量 的 权 是 〈0.199、-0.365、-0.399、- - 


0.336、-0331、-0.298、-0.421、-0.423)。 注 意 ， 给 每 个 变量 的 权 是 大 体 相似 的 ， 但 给 第 一 
个 变量 (时 钟 周 期 ) 的 权 的 符号 与 给 其 他 变量 的 是 相反 的 。) 如 果 ， 我 们 用 协 方 差 矩阵 代替 
相关 矩阵 进行 分 析 ， 那 么 取 值 范围 较 大 的 变量 往往 会 占据 优势 。 对 于 本 例 中 的 这 些 数据 ， 给 
内 存 的 值 要 远 远大 于 给 其 他 变量 的 值 。 (这 是 因为 它 是 以 千 个 字 节 为 单位 的 。 如 果 用 兆 字 节 
来 表示 就 不 是 这 样 了 一 一 这 就 是 不 同 量 纲 变量 缩放 所 造成 的 任意 性 (参见 第 2 章 ))。 利 用 协 
方差 矩阵 的 主 分 量 分 析 给 出 的 变化 性 正比 于 96.02、3.93、0.04、0.01、0.00、0.00、0.00 和 0.00 
(参见 图 3-17)。 这 里 从 第 一 个 分 量 到 第 二 个 分 量 的 下 降 是 非常 显著 的 一 一 事实 上 ， 数 据 中 
的 变化 性 确实 几乎 完全 可 以 按 内 存 容量 的 不 同 来 解释 。 然 而 ， 通 常情 况 下 不 会 出 现 这 样 明显 
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52. #3 F 


的 下 降 一 一 数据 其 余 的 变化 性 不 可 以 都 归 为 随机 变化 。 因 此 选取 多 少 个 分 量 是 有 相当 任意 性 
的 。 占 总 方差 多 大 比例 才 足 以 描述 数据 取决 于 具体 的 应 用 领域 。 在 某 些 场合 ， 描 述 60% 方 
差 的 前 几 个 分 量 就 足够 了 ， 但 在 其 他 场合 也 许 希望 95% 或 更 多 。 
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图 3-17 计算 机 CPU 数 据 集 的 碎 石 堆 图 。 上 图 显示 的 是 相关 算 阵 的 特征 值 ， 下 图 是 协 方差 抢 阵 的 情形 


当 在 进一步 分 析 之 前 进行 主 分 量 分 析 时 ， 选 择 不 能 很 好 地 解释 数据 变化 性 的 很 小 分 量 数 
是 有 人 危险 的 。 这 样 会 丢失 信息 ， 并 且 不 能 保证 丢失 的 信息 与 进一步 的 分 析 是 无 关 的 。( 事 实 上 
即使 保留 的 分 量 可 以 很 好 地 说 明 变化 性 ， 但 只 要 达 不 到 100%， 上 述 判 断 就 是 正确 的 ， 即 这 样 
做 仍 有 危险 。) 例如 ， 我 们 可 能 在 对 数据 进行 分 类 之 前 进行 主 分 量 分 析 。 由 于 减少 维 数 的 目的 
和 分 类 是 有 些 不 同 的 ， 因 此 被 缩减 后 的 几 个 分 量 就 有 可 能 丢失 了 各 个 类 间 的 重要 差异 信息 一 一 在 
第 9 章 的 末尾 我 们 将 介绍 一 个 这 样 的 例子 。 类 似 地 ， 对 于 许多 属于 两 个 “或 更 多 ) 类 的 多 维 数据 
集 来 说 ， 预 先 的 主 分 量 分 析 都 可 能 彻底 抹杀 类 分 布 间 的 差异 。 另 一 方面 ， 对 于 具有 很 多 说 明 
性 变量 的 回归 问题 (第 11 章 )， 除 非 数据 集 非常 庞大 ， 否 则 也 可 能 造成 使 系数 估计 不 稳定 的 
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问题 。 在 进行 回归 分 析 之 前 有 时 会 进行 主 分 量 分 析 ， 目 的 是 把 大 量 的 说 明 性 变量 减少 为 几 个 
变量 的 线性 组 合 。 

尽管 有 无 法 提取 相关 信息 的 危险 ， 但 是 主 分 量 分 析 仍然 是 一 种 强大 而 且 有 价值 的 工具 ， 
因为 它 是 建立 在 线性 投影 和 最 小 化 方差 〈 或 误差 平方 和 ) 基础 之 上 的 ， 所 以 可 以 显 式 的 进行 
各 种 数字 操作 ， 不 需要 做 任何 迭代 搜索 。 从 特征 向 量 公式 直接 计算 主 分 量 解 的 复杂 度 大 体 为 
O(np? + p?) (np? 用 于 计算 V，p? 用 于 求解 pXp 算 阵 的 特征 值 方 程 ;。 这 意味 着 该 方法 适用 
于 记录 数 n 很 大 的 数据 集 (但 维度 p 的 伸缩 性 就 不 这 么 好 了 )。 正 如 刚才 的 例子 所 演示 的 ， 
当 进 行 主 分 量 分 析 时 ， 不 论 是 对 于 协 方差 矩阵 还 是 相关 和 矩阵， 该 方法 对 原始 变量 的 重新 调节 
(rescale) 不 是 恒定 的 。 因 此 应 根据 分 析 的 目的 采取 合适 的 步 又。 典型 地 ， 如 果 不 同 的 变量 
测量 不 同 的 属性 《如 身高 、 体 重 和 肺活量 )， 那 么 将 重新 调节 数据 ， 因 为 不 然 的 话 ， 直 接 主 
分 量 分 析 的 结果 将 依赖 于 每 个 属性 所 选择 的 单位 。 

为 了 演示 主 分 量 分 析 的 简单 图 形 应 用 ， 图 3-18 显示 了 17 种 药丸 在 前 两 个 主 分 量 所 决定 
的 平面 上 的 投影 以 数字 表示 )。 对 每 种 药丸 的 六 种 测量 是 特定 比例 分 别 为 10%. 30%, 
50%、70%、75% 和 90%) 的 该 种 药丸 的 溶解 时 间 。 从 图 中 可 以 清楚 地 看 出 有 一 种 药丸 〈 位 
于 图 的 右 下 角 ) 与 其 他 药丸 的 区 别 很 大 ， 与 其 他 点 相距 很 远 。 
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图 3-18 ”在 前 两 个 主 分 量 上 的 投影 


有 时 我 们 可 以 从 定义 主 分 量 的 权 模 式 〈 或 者 有 时 叫 加 载 Cloading) 模式 ) 中 获得 很 多 内 | 


部 细节 。Huba et al. (1981) 收集 了 1684 位 洛杉矶 学 生 消费 13 种 合法 和 不 合法 兴奋 性 物质 
的 数据 ， 这 些 物质 有 : 香烟、 啤酒 、 红 酒 、 酒 精 、 可 卡 因 、 镇 定 剂 、 用 于 达到 高 潮 的 药房 药 
剂 、 吗 啡 和 其 他 鸦片 制剂 、 大 麻 、 麻 药 、 吸 入 性 麻醉 剂 〈 例 如 glue)、 迷 幻 药 和 安 非 他 明 。 
Huba 等 人 把 使 用 每 种 药 的 情况 定 为 ，1 (从 未 尝试 )、2〔 用 过 一 次 )、3〔 用 过 几 次 )、4 (用 
过 好 多 次 ) 和 5 (经 常 使 用 ). 按照 这 些 变量 的 顺序 , 主 分 量 分 析 的 第 一 分 量 权 是 (0.278, 0.286, 
0.265，0.318，0.208，0.293，0.176，0.202，0.339，0.329，0.276，0.248，0.329)。 这 一 分 
量 赋 给 每 个 变量 的 权 是 大 体 相等 的 ， 因 此 可 以 被 认为 是 衡量 学 生 多 么 频繁 地 使 用 这 些 物质 的 


一 个 一 般 尺 度 。 因 此 ， 学 生 之 间 的 最 大 区 别 是 通过 他 们 使 用 这 些 物质 的 频率 来 衡量 的 ， 不 论 
他 们 使 用 的 究竟 是 哪 种 物质 。 

第 二 分 量 的 权 为 “0.280，0.396，0.392，0.325，-0.288，-0.259，-0.189，-0.315，0.163， 
-0.050，-0.169，-0.329，-0.232)。 这 个 权 非 常 有 趣 ， 因 为 它 赋 给 所 有 合法 物质 的 权 都 为 正 ， 
赋 给 所 有 非法 物质 的 权 都 为 负 ， 因 此 ， 一 旦 我 们 控制 了 总 体 的 药物 使 用 情况 ， 那 么 学 生 之 间 
的 主要 区 别 就 是 他 们 使 用 的 药物 是 合法 还 是 非法 的 。 这 正 是 在 数据 挖掘 中 我 们 希望 发 现 的 关 
系 。 

另 一 种 统计 技术 ， 因 素 分 析 (factor analysis)， 经 常 与 主 分 量 分 析 混 淆 ， 但 是 这 两 种 技 
术 的 目的 是 不 同 的 。 正 如 前 面 所 介绍 的 ， 主 分 量 分 析 是 将 数据 向 新 的 变量 转换 。 而 后 我 们 可 
以 仅 选取 这 些 变量 作为 对 数据 的 一 种 充分 描述 。 另 一 方面 ， 因 素 分 析 是 一 种 数据 模型 ， 其 基 
本 思想 是 我 们 可 以 把 测量 变量 成 ，…， 总 定义 为 更 少数 量 数 m Cm < p) 个 “潜在 ”因素 (未 
观察 的 或 不 能 明确 测量 的 ) 的 线性 组 合 。 因 素 分 析 的 目的 就 是 揭 开 这 些 隐藏 变量 的 信息 。 

我 们 可 以 把 F = (Fo Fp 定义 为 代表 未 知 潜在 变量 的 mX 1 列 向 量 ， 其 值 为 f = 
Gr oy fo RAE CAM SER x = Oy vo x) (定义 为 pX1 的 列 向 量 ) 看 
作 是 是 f 的 线性 函数 ， 定 义 为 : 


x=Aft+e (3.13) 


其 中 A 是 一 个 pxXm 的 因素 加 载 (factor loading) 矩阵 ， 它 给 出 了 每 个 因素 对 每 个 显 性 变量 的 
贡献 的 权 。pX1 的 向 量 e 的 各 元 素 是 不 相关 的 随机 变量 ， 有 时 被 称 为 特殊 因素 (specific 
factor)， 因 为 它们 只 对 单个 的 显 性 〈 观 察 ) 变量 号 (1 <j < p) 有 贡献 。 因 素 分 析 是 第 9 
章 介绍 的 结构 化 线性 关系 模型 的 特例 ， 所 以 在 此 不 介绍 其 详细 的 估计 过 程 。 因 素 分 析 是 这 种 
形式 模型 的 最 早 结构 ， 它 具有 特殊 的 位 置 ， 不 仅 因为 它 的 历史 ， 还 因为 它 一 直 是 这 种 模型 中 
被 应 用 最 广 的 形式 之 一 。 

人 们 也 曾 对 因素 分 析 方 法 有 很 多 争议 ， 部 分 原因 是 它 的 解 对 于 不 同 变 换 不 是 恒定 的 。 从 
公式 3.13 中 容易 看 出 可 以 通过 mxm HERE M 来 定义 新 的 因素 ， 只 要 满足 
x = (AM)(Mf)+e 。 这 相当 于 在 这 些 因素 所 跨越 的 空间 中 旋转 这 些 因 素 。 因 此 ， 提 取 的 因素 
本 质 上 是 不 唯一 的 ， 除 非 强加 额外 的 约束 。 有 很 多 种 约束 可 用 于 一 般 性 的 应 用 ， 包 括 使 提取 
因素 的 权 尽 可 能 接近 0 或 1， 这 样 便 可 以 根据 因素 的 子 集 尽 可 能 清楚 地 定义 变量 。 





3.7 ”多维 缩放 


在 前 一 节 我 们 描述 了 如 何 使 用 主 分 量 分 析 将 多 元 数据 投影 到 数据 可 以 最 大 限度 分 布 的 平 
面 上 。 这 使 我 们 可 以 在 牺牲 最 少 信息 的 条 件 下 使 分 析 数 据 可 视 化 。 这 种 方法 只 对 被 测量 变量 
所 跨越 区 域 的 二 维 线性 子 空间 内 的 数据 是 有 效 的 。 如 果 数 据 集 本质 上 是 二 维 的 , 但 却 不 是 “ 平 
坦 的 ”， 而 是 弯曲 的 或 者 失真 的 ， 那 么 会 怎样 呢 ? (想像 一 张 弄 皱 的 纸 ， 本 质 上 是 一 维 的 ， 
但 占用 了 三 维 。) 在 这 种 情况 下 ， 主 分 量 分 析 很 有 可 能 无 法 找 出 潜在 的 二 维 结构 。 对 于 这 样 
的 场合 ， 多 维 缩放 是 很 有 帮助 的 。 多 维 缩放 在 尽 可 能 远 的 保留 数据 点 与 点 闪 的 距离 的 同时 ， 
争取 在 更 低 维 的 空间 内 来 表示 数据 。 因 为 我 们 最 关心 的 是 二 维 表示 ， 所 以 我 们 将 讨论 主要 限 
制 在 这 种 情况 中 。 它 可 以 直接 扩展 到 更 多 维 显示 的 情况 。 

多 维 缩放 的 方法 有 很 多 ， 区 别 在 于 如 何 定义 所 保持 的 距离 ， 如 何 映射 ， 以 及 如 何 进行 计 
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算 。 可 以 把 主 分 量 分 析 当 作 一 种 基本 形式 。 在 这 种 方法 中 点 之 间 的 距离 是 欧 氏 的 (或 者 
Pythagorean)， 而 且 它 们 是 被 映射 到 也 是 用 欧 氏 标 距 测量 的 压缩 空间 中 。 原 始 数据 点 与 它们 
投影 点 间 的 距离 平方 和 为 衡量 这 种 表示 的 质量 提供 了 一 种 尺度 。 其 他 多 维 缩放 方法 也 有 其 对 
应 的 表示 质量 尺度 。 

因为 多 维 缩放 方法 力争 保持 各 点 间 的 距离 ， 所 以 我 们 可 以 把 这 些 距 离 作为 分 析 的 起 点 。 
也 就 是 说 ， 我 们 不 需要 知道 被 分 析 对 象 的 任何 变量 测量 值 ， 只 要 知道 以 距离 衡量 的 对 象 相 似 
性 就 可 以 了 。 举 例 来 说 ， 数 据 可 能 是 通过 让 回答 者 比较 两 个 对 象 闻 的 相似 性 来 采集 的 。( 这 
样 的 一 个 经 典 例子 是 用 来 显示 代表 不 同 字母 的 摩尔 斯 代码 被 搞 混 次 数 的 矩阵 。 这 里 不 存在 “ 变 
量 ”， 只 是 用 一 个 “相似 性 ”矩阵 来 度量 一 个 字母 被 搞 混成 男 一 个 字母 的 频繁 程度 。〉 这 个 过 
程 的 最 终 目 标 也 是 一 样 的 一 一 数据 点 在 二 维 空间 中 的 布局 。 从 某 种 意义 来 说 ， 我 们 是 利用 这 
些 对 象 和 回答 者 来 次 定 在 什么 样 的 维 上 测量 “相似 性 ”。 多 维 缩放 方法 广泛 应 用 在 心理 测试 
和 市 场 调查 等 领域 中 ， 用 来 理解 对 象 间 的 关系 和 相似 性 。 

从 一 个 nXp 的 数据 抢 阵 X 我 们 可 以 求 出 一 个 Xn ABER B= XX (因为 这 样 做 
的 时 间 和 空间 复杂 度 都 是 O(w?)， 所 以 这 种 方法 对 于 非常 大 的 n 值 显然 是 不 适用 的 )。 由 此 可 
以 看 出 第 i 个 和 第 j 个 对 象 间 的 欧 氏 距离 为 ; 


di =b; +b; — 2b; (3.14) 

















如 果 我 们 可 以 把 这 种 关系 反 过 来 ， 那 么 对 于 一 个 给 定 的 距离 矩阵 D (通过 计算 欧 氏 距离 


或 以 其 他 途径 根据 原始 数据 点 导出 )， 我 们 就 能 求 出 B 的 元 素 。 然 后 可 以 把 B 因子 化 以 得 到 
点 的 坐标 。 一 种 因子 化 B 的 方法 是 按照 特征 向 量 进行 的 。 如 果 我 们 选择 和 两 个 最 大 特征 值 
相 联 系 的 因子 ， 那 么 我 们 就 可 以 得 到 一 个 最 大 可 能 保持 数据 结构 的 二 维 表示 。 

这 个 过 程 的 可 行 性 关键 在 于 能 否 逆 转 等 式 3.14。 不 幸 的 是 ， 如 果 不 强加 额外 的 约束 是 不 
可 能 的 。 因 为 平移 均值 和 旋转 点 布局 并 不 影响 点 间 的 距离 ， 所 以 对 于 任意 的 给 定 距 离 集合 ， 
都 存在 无 数 个 解 ， 只 是 点 布局 的 位 置 和 方向 有 上 所 不 同 。 

一 种 充分 的 约束 是 假定 所 有 变量 的 均值 为 零 。 也 那 就 是 说 ， 假 定 对 于 所 有 k= 1，…，P 
都 有 2 ,xik =0。 这 意味 着 2 by =D, by =0。 现在 ， 通 过 汇总 等 式 3.14， 首 先 对 i 然后 
对 j， 最 后 对 i 和 j， 我 们 得 到 : 

X di = tr(B) + nb i 


Y df = tr(B) + nb; 
j 


》 dj = 2ntrB) (3.15) 
ij 
其 中 BÆRE B AWE. SAR dP RAT rB) 第 一 和 第 二 个 等 式 以 和 和 rB) A 
此 也 就 是 以 d2 本 身 ) 表示 了 by 和 bs。 把 这 些 插入 到 等 式 3.14 中 便 把 已 表示 成 了 地 的 函数 ， 
这 样 便 得 到 了 所 需 的 逆转 。 
这 种 过 程 被 称 为 主 坐 标 (principal coordinate) 法 。 可 以 证 明 对 数据 矩阵 X (和 和 矩阵 XT 
的 因子 化 ) 的 主 分 量 分 析 所 计算 出 的 主 分 量 值 与 上 面 缩放 分 析 的 坐标 是 相同 的 。 
当然 ， 如 果 和 矩阵 B 不 是 按 XX? 的 乘积 产生 的 ， 而 是 通过 其 他 途径 〈 如 变量 对 间 的 主观 
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差异 ) 产生 的 ， 那 么 不 能 保证 所 有 的 特征 值 都 是 非 负 的 。 如 果 负 特征 值 的 绝对 值 很 小 ， 那 么 
可 以 忽略 它们 。 
经 典 的 多 维 到 二 维 缩放 寻找 使 下 式 最 小 化 的 到 二 维 空间 的 投影 : 


È È Oy dy)? (3.16) 
i j 
其 中 5y 是 p 维 空间 中 数据 点 i 和 数据 点 j 间 的 观察 到 的 距离 ，d 是 二 维 空间 中 代表 这 些 对 象 
的 点 之 间 的 距离 。 通 过 这 种 表示 ， 使 这 种 过 程 可 以 被 立刻 推广 。 有 了 距离 或 相 异 度 ， 通 过 这 
样 或 那样 的 推导 ， 我 们 可 以 在 二 维 空间 中 找到 一 种 点 分 布 使 差异 平方 和 了, D Oy -dy)” 最 
小 化 。 这 样 便 缓解 了 必须 用 投影 来 寻找 布局 的 局 限 。 对 于 这 种 情况 ， 通 常 不 可 能 得 到 精确 的 
代数 解 ， 因 此 必须 用 数值 方法 ; 我 们 仅 有 一 个 要 最 小 化 的 含 2n 个 参数 (点 在 二 维 空间 中 的 
坐标 ) 的 函数 。 
评分 函数 > ,2 Cig ~ ag)” 衡量 了 导出 布局 中 的 点 间距 离 和 原始 点 间距 离 的 匹配 程 
度 ， 它 对 于 旋转 和 平移 是 恒定 的 。 然 而 ， 它 对 于 数据 的 再 缩放 并 不 是 恒定 的 ， 如 果 把 6 R 
以 一 个 常数 ， 我 们 将 得 到 同样 的 解 ， 但 是 得 到 的 S, D O -dy)” 值 是 不 同 的 。 为 了 合理 
的 比较 不 同 的 情况 ， 我 们 把 了 >,(6y -dy)? RUD, ,d3 ， 这 样 便 得 到 标准 的 残 差 平方 
和 。 一 种 常见 的 评分 函数 是 取 该 量 的 平方 根 ， 称 为 应 力 (stress)。 应 力 的 一 种 变 体 是 s 应 力 


(sstress)， 定 义 为 : 
S 65-457 ¥ Vai 
ij ij 


这 些 尺度 实质 上 假定 了 二 维 布局 中 的 距离 和 原始 相 异性 的 区 别 是 由 随机 偏差 和 失真 所 千 
成 的 一 一 也 就 是 dy = 6 + ey 。 也 可 以 建立 更 加 完善 的 模型 。 例 如 ,我 们 假定 内 = e+b5y +E; 。 
现在 这 个 过 程 必须 分 为 两 个 阶段 。 从 提出 的 布局 开始 ， 应 用 给 定 的 相 异性 对 二 维 空间 中 的 距 
离 dj 进 行 回归 ， 得 到 对 a 和 b 的 估计 。 然 后 寻找 使 以 下 应 力 最 小 化 的 新 dy 什 : 


YN Gy - 4-06, 12 2d 
i j i j 


然后 重复 此 过 程 直到 达到 了 满意 的 收敛 结果 。 

像 上 面 这 样 对 相 异 性 建 模 的 多 维 缩放 方法 被 称 为 标 距 〈metric) 法 。 然 而 有 时 需要 一 
种 更 通用 的 方法 。 例 如 ， 我 们 可 能 并 不 知道 精确 的 相似 度 ， 只 有 它们 的 相似 程度 排序 〈 对 
象 4 与 B 比 B 与 C 更 相似 等 等 ); 或 者 我 们 不 能 假定 在 d, 5, 之 间 的 关系 符合 特定 的 
形式 ， 只 能 确定 存在 某 种 单调 的 关系 。 这 便 要 求 使 用 一 种 类 似 于 上 一 段 中 描述 的 两 阶段 过 
程 ， 不 过 使 用 的 是 一 种 被 称 为 单调 回归 的 技术 ， 而 不 是 简单 的 线性 回归 ， 这 便 是 非 标 距 
(non-metric) 多 维 缩放 。 这 里 术语 非 标 距 的 含义 是 指 这 种 方法 只 保持 原来 的 顺序 关系 。 

多 维 缩放 是 显示 数据 以 揭示 其 结构 的 一 个 强大 工具 。 然 而 ， 和 本 章 描述 的 其 他 图 形 方法 
一 样 ， 如 果 数 据点 太 多 的 话 ， 结 构 就 会 变 得 模糊 不 清 。 此 外 ， 由 于 多 维 缩放 对 数据 应 用 了 非 
常 复杂 精密 的 变换 〈 所 以 比 简单 的 散 点 图 或 主 分 量 分 析 更 加 复杂 )， 所 以 可 能 会 引入 假象 ， 
Cartifact)。 尤 其 是 在 有 些 情况 下 ， 对 象 很 相似 时 比 它们 相差 巡 异 时 可 以 更 精确 地 决定 对 象 


(3.17) 





(3.18) 
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闻 的 相似 性 。 不 妨 以 机 械 制 品 样式 的 演变 过 程 为 例 。 在 很 短 时 间 内 生产 出 的 那些 产品 彼此 间 
很 可 能 会 有 很 多 共同 点 ， 而 那些 生产 时 间 间 隔 很 长 的 产品 可 能 就 没什么 共同 点 。 结 果 可 能 在 
多 维 缩放 图 中 出 现 一 个 感应 性 弯曲 ， 而 我 们 希望 得 到 更 直 一 些 的 直线 。 这 种 现象 称 为 马蹄 铁 
效应 (horseshoe effect). 
图 3-19 所 示 为 一 幅 通 过 用 非 标 距 缩放 使 等 式 3.17 的 s 应 力 评分 函数 最 小 化 而 生成 的 图 
形 。 这 些 数 据 来 自 于 一 项 对 英语 方言 的 研究 。 该 研究 对 25 个 乡村 进行 两 两 比较 ， 依 据 是 这 
两 个 乡村 用 不 同 单词 表达 60 个 内 容 (item) 的 百分比 。 表 3-1 列 出 了 这 些 乡 村 ， 和 它们 所 在 
的 各。 从 图 中 可 以 看 出 同一 郡 〈( 因 此 地 理 上 比较 近 〉 的 乡村 往往 使 用 相同 的 单词 。 








一 40 —20 0 20 
图 3-19 ”反映 乡村 方言 相似 点 数据 的 多 维 缩放 图 
表 3-1 图 3-19 显示 的 具有 相似 方言 的 25 个 乡村 的 编码 、 名 称 和 所 在 郡 
2 South Clifton WT RB 
KaM 
6 HEE 
7 Zo 
5 i 
KEN 
w [sem OOOO 
ms 
i 
13 Harby SEER 
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CE) 
15 Goadby SE TS BB 
16 Ullesthorpe 莱 斯 特 郡 
17 Empingham 拉 特 兰 郡 
18 Warmington 北 安普敦 郡 
Little Harrowden 北 安普敦 郡 
Kislingbury 北 安普敦 郡 
21 Sulgrave dee BB 
22 Warboys ERB 
23 Little Downham 剑桥 性 
24 Tingewick 白金 汉 郡 
25 Turvey 贝 德 福 德 郡 
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多 维 缩放 方法 通常 在 二 维 空间 中 显示 数据 点 。 如 果 变 量 也 是 在 这 一 空间 描述 的 〈 假 定数 
据 是 向 量 形式 的 )， 那 么 就 可 以 清楚 地 看 出 数据 点 和 变量 间 的 关系 。 如 果 原 始 变量 所 定义 的 
空间 和 用 于 显示 数据 的 空间 之 间 存 在 复杂 的 非 线性 关系 ， 那 么 表示 原始 变量 就 不 是 一 种 微 不 
足 道 的 任务 了 。 既 显示 数据 点 又 显示 变量 的 图 被 称 为 双 用 图 (biplots)。 这 里 的 “ 双 用 (bi)” 
代表 同时 显示 两 种 模式 一 数据 点 和 变量 一 一 并 不 是 说 它 是 二 维 显示 。 事 实 上 ， 已 经 开发 出 
了 三 维 的 双 用 图 。 涉 及 非 线 性 变换 的 多 维 缩放 形式 产生 的 是 非 线性 的 双 用 图 。 甚 至 还 可 以 为 
范畴 型 数据 产生 双 用 图 ， 在 这 种 场合 下 ， 变 量 的 级 别 〈level) 是 用 图 中 的 区 域 (range) 表 
示 的 。 要 有 效 地 解释 多 维 双 用 图 显示 需要 丰富 的 实践 经 验 。 





3.8 补充 读物 


John Tukey 的 《Exploratory Data Analysis》( 探 索性 数据 分 析 )〈Tukey,1977) 一 书 的 出 
版 为 探索 性 数据 分 析 葛 定 了 基础 并 赢得 了 声望 。 从 此 以 后 ， 随 着 计算 机 技术 的 飞速 发 展 和 简 
单 易 懂 的 精确 图 形 显示 产品 的 出 现 ， 这 种 方法 不 断 地 发 展 。 现 代 的 数据 可 视 化 技术 为 探索 各 
种 结构 提供 了 强 有 力 的 工具 。 关 于 图 形 方法 的 著作 包括 Tufte (1983)、Chambers et al. (1983) 
以 及 Jacoby (1997). Wilkinson (1999) 是 新 加 入 到 可 视 化 文献 中 的 一 本 特别 有 趣 的 著作 ， 
该 书 以 新 颖 的 语言 分 析 了 很 多 通用 的 数据 可 视 化 技术 。 

Asimov (1985), Becker, Cleveland and Wilks (1987). Cleveland and McGill (1988), 
Buja, Cook and Swayne (1996) 重点 介绍 交互 式 的 动态 方法 。Silverman (1986). Scott (1992), 
和 Wand and Jones (1995) 介绍 了 显示 一 元 分 布 的 平滑 方法 ， 以 及 对 多 元 情况 的 扩展 。Carr et 
al. (1987) 讨论 了 针对 庞大 数据 集 的 散 点 图 技术 。Wegman (1990) 讨论 了 平行 坐标 。 范 畴 
型 数据 在 某 种 程度 上 比 实数 值 数据 更 难 可 视 化 ， 因 此 ， 范 畴 型 数据 的 可 视 化 技术 并 未 得 到 广 
泛 发 展 和 应 用 。 尺 管 如 此 ，Blasius and Greenacre (1998) 对 范畴 型 数据 的 可 视 化 和 探索 性 数 
据 分 析 的 最 新 发 展 作 了 一 个 全 面 和 有 用 的 回顾 。Cook and Weisberg (1994) 描述 了 图 形 技术 
在 回归 建 模 方面 的 应 用 。 

Card, MacKinlay and Shneiderman (1999) 汇编 了 关于 “信息 可 视 化 ”这 一 主题 的 大 量 
论文 ， 介 绍 了 很 多 如 何 显示 各 种 复杂 异 质 (heterogeneous)〉 数据 集 的 技术 。Keim and Kriegel 
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(1994) 介绍 了 一 个 特别 为 探索 数据 库 而 设计 的 系统 。 

多 维 缩放 已 经 发 展 成 为 一 个 很 大 的 领域 。 这 方面 的 书籍 包括 Davidson (1983), Cox and 
Cox (1994)。Gower and Hand (1996) 详细 地 讨论 了 双 用 图 。 

CPU 数据 来 源 于 Ein-Dor and Feldmesser (1987)， 在 Hand et al. (1994) 的 325 号 数据 
集中 有 其 拷贝 。 英 语 方言 的 数据 来 源 于 Morgan (1981)， 在 Hand et al. (1994) 的 145 号 数 
据 集 中 有 其 拷贝 。Thall and Vail(1990) 和 Hand et al.( 1994) B24 Hi T RARI AE BCE. Chernoff 


(1973) 介绍 了 图 标 图 所 显示 的 矿石 数据 。 
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第 4 章 数据 分 析 和 不 确定 性 


4.1 简介 


这 一 章 我 们 将 集中 讨论 不 确定 性 〈uncertainty) 和 处 理 不 确定 性 的 方法 。 不 仅 从 真实 世 
界 映 射 到 数据 库 的 过 程 极 少 是 十 全 十 美的 ， 而 且 被 映射 的 领域 一 一 真实 世界 本 身 一 一 也 充满 
了 模糊 和 不 确定 性 。 处 理 不 确定 性 的 基本 工具 是 概率 ， 因 此 我 们 首先 从 有 关 的 概念 入 手 ， 然 
后 再 说 明 如 何 使 用 概率 理论 来 建立 统计 模型 。4.2 节 简 要 的 讨论 了 概率 计算 和 概率 解释 的 差 
异 ， 集 中 讨论 了 两 种 主要 的 解释 方法 : 频率 论 的 和 主观 法 〈 贝 叶 斯 )。4.3 节 把 讨论 范围 延伸 
到 随机 变量 的 概念 ， 重 点 讨论 了 存在 于 多 个 随机 变量 间 的 关系 。 

样本 的 概念 是 许多 数据 挖 据 行为 的 基础 。 有 时 数据 库 中 包含 的 就 是 来 自 所 有 可 能 情况 的 
一 个 样本 ;4.4 节 对 此 进行 了 探索 ， 解 释 了 为 什么 很 多 时 候 工作 在 样本 上 就 足够 了 。4.5 节 描 
述 了 估计 (estimation) 一 一 推广 到 样本 数据 之 外 、 求 解数 据 模 型 参数 的 过 程 。 尤 其 是 ， 我 们 
比较 细致 地 讲解 了 最 大 似 然 (maximum likelihood) 和 贝 叶 斯 这 两 种 估计 方法 的 基本 原理 。4.6 
节 讨 论 了 与 估计 方法 密切 相关 的 一 些 话题 ， 即 如 何 根 据 观 测 到 的 数据 评价 假设 的 质量 。4.7 
节 重 点 讨论 了 从 数据 中 抽取 样本 的 一 些 系 统 方法 。4.8 节 对 本 章 内 容 进 行 了 总 结 ，4.9 节 推 荐 
了 一 些 更 加 详细 的 读物 。 


4.2 ”处 理 不 确定 性 


描述 不 确定 性 以 及 其 相关 概念 的 词汇 异常 丰富 ， 这 说 明了 这 个 概念 的 普遍 性 。 例 如 概率 
《probability)、 偶 然 性 (chance)、 随 机 性 (randomness)、 运 气 (luck)、 意 外 (hazard〉 和 
RH (fate) 仅仅 是 一 部 分 。 不 确定 性 是 无 所 不 在 的 ， 这 要 求 我 们 必须 采取 措施 来 对 付 它们 : 
对 不 确定 性 建 模 几乎 是 所 有 数据 分 析 工 作 的 一 个 必 不 可 少 的 部 分 。 甚 至 ， 有 些 情 况 下 我 们 的 
主要 目的 就 是 对 不 确定 性 和 数据 的 随机 特征 建 模 。 我 们 已 经 对 不 确定 性 有 了 非常 深入 的 了 
解 ， 这 是 最 伟大 的 科学 成 就 之 一 。 今 天 人 们 不 再 用 “上 帝 的 反复 无 常 ”来 解释 这 个 世界 的 难 
以 预测 性 ， 取 而 代 之 的 是 数学 、 统 计 和 基于 计算 机 的 各 种 模型 ， 因 为 这 些 工具 使 人们 可 以 理 
解 并 处 理 不 确定 事件 。 我 们 甚至 可 以 尝试 那些 看 起 来 不 可 能 的 不 确定 事件 ， 并 对 其 进行 预测 。 
对 于 一 个 数据 挖掘 者 来 说 ， 预 测 可 能 意味 着 对 未 来 事件 的 预测 〈 这 种 情况 下 的 不 确定 性 概念 
是 非常 熟悉 的 )， 也 可 能 意味 着 对 某 个 变量 做 非 时 间 意 义 上 的 预测 ， 这 个 变量 的 真实 值 因 某 
种 原因 不 为 我 们 所 知 〈 例 如 ， 仅 根据 描述 出 的 症状 诊断 一 个 人 是 否 患 了 癌症 )。 

产生 不 确定 性 的 原因 很 多 。 我 们 的 数据 可 能 仅 是 我 们 要 研究 的 总 体 的 一 个 样本 ， 所 以 我 
们 不 能 确定 不 同样 本 相互 之 间 以 及 样本 与 整个 总 体 之 间 的 差异 程度 。 或 许 我 们 的 上 且 标 在 于 根 
据 今天 的 数据 来 对 明天 的 情况 做 出 预测 ， 那 么 我 们 的 结论 是 受 将 来 结果 的 不 确定 性 支配 的 。 
或 许 我 们 对 某 些 情 况 并 不 知晓 或 不 能 观察 到 某 个 值 , 因而 必须 把 我 们 的 想法 建立 在 我 们 的 “最 
好 猜测 ”之 上 。 等 等 。 

目前 已 经 建立 了 很 多 用 于 处 理 不 确定 性 和 未 知性 的 基本 概念 。 这 其 中 ， 迄 今 为 止 应 用 最 
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广 的 是 概率 理论 。 模 糊 逻 辑 是 另 一 个 应 用 很 广 的 理论 ， 但 这 个 领域 一 一 以 及 与 之 密切 相关 的 
一 些 领域 ， 比 如 可 能 性 理论 (possibility theory) 和 粗糙 集 (rough sets) 一 一 还 存在 相当 多 的 
争议 :缺少 概率 理论 所 具备 的 完整 理论 框架 ， 而 且 并 不 像 概率 理论 那样 被 广泛 接受 和 应 用 。 
可 能 有 一 天 这 些 思 想 会 英 定 坚实 的 基础 ， 并 被 广泛 地 使 用 ， 但 因为 它们 目前 还 处 于 不 确定 状 
态 ， 所 以 本 书 不 对 其 作 进一步 的 讨论 。 

把 概率 论 (probability theory〉 和 概率 计算 (probability calculus〉 区 分 开 来 是 有 意义 的 。 
前 者 致力 于 如 何 解释 概率 ， 而 后 者 致力 于 如 何 操纵 概率 的 数学 表示 。( 不 幸 的 是 ， 并 非 所 有 
的 教科 书 都 明确 地 区 分 了 这 两 个 术语 一 一 经 常 看 到 关于 概率 计算 的 书籍 中 出 现 “概率 论 简 
介 ” 这 样 的 标题 。) 这 个 区 分 之 所 以 重要 是 因为 这 样 我 们 可 以 把 那些 具有 统一 共识 的 领域 w 
率 计 算 ) 从 那些 观点 不 同 的 领域 (概率 理论 ) 中 分 离 出 来 。 概 率 计 算是 数学 的 一 个 分 支 ， 
建立 在 精确 定义 并 被 普遍 接受 的 一 些 公 理 〈 由 前 苏联 数学 家 Kolmogorov 在 三 十 年 代 提出 
之 上 ， 它 的 目标 是 探索 那些 公理 的 推论 。( 有 一 些 领域 使 用 了 不 同系 列 的 公理 ， 但 那 是 专门 
针对 某 个 领域 的 ， 一 般 不 会 关系 到 数据 挖掘 问题 .， 另 一 方面 ， 概 率 理论 为 关于 如 何 把 真实 
世界 映射 到 这 种 数学 表示 的 各 种 观点 留 出 了 空间 一 一 例如 什么 是 概率 。 

对 概率 理论 历史 和 哲学 的 研究 表明 有 多 少 个 思想 家 就 有 多 少 种 对 概率 含义 的 不 同 观 点 。 
不 过 ， 可 以 把 这 些 观点 分 为 几 种 不 同类 型 的 变 体 . 这 里 我 们 把 讨论 范围 限制 在 两 种 最 重要 的 
类 型 〈 根 据 它 们 对 数据 挖掘 实践 的 影响 )。 喜 爱 哲 学 研究 的 读者 可 以 参考 4.9 节 ， 那 里 介绍 
了 一 些 包含 更 广泛 讨论 的 资料 。 

频率 论 观点 (frequentist view) 认为 概率 是 一 个 客观 概念 。 特别 是 把 一 个 事件 的 概率 定 
义 为 在 绝对 一 致 的 条 件 下 重复 某 一 行为 时 这 个 事件 发 生 次 数 的 比例 极限 (limiting 
proportion )。 一 个 简单 的 例子 是 当 反 复 投 硬币 时 正面 出 现 次 数 的 比例 。 这 种 解释 限制 了 概率 
的 应 用 ， 例 如 我 们 不 能 评估 某 个 运动 员 在 下 一 次 奥运 会 上 获得 金牌 的 概率 ， 因 为 这 是 个 一 次 
性 事件 ,“ 比 例 极限 ”的 思想 没有 意义 。 另 一 方面 ， 我 们 当然 可 以 评估 顾客 在 超市 购买 某 一 
种 商品 的 概率 ， 因 为 我 们 可 以 使 用 大 量 相似 顾客 作为 比例 极限 的 基础 。 在 这 个 例子 中 进行 了 
某 种 理想 化 〈idealization)， 不 同 顾客 与 一 个 顾客 的 重复 行为 事实 上 是 不 同 的 。 和 所 有 的 科 
学 建 模 一 样 ， 我 们 需要 决定 哪些 方面 对 保证 我 们 的 模型 足够 准确 是 重要 的 。 在 预测 顾客 行为 
时 ， 我 们 可 能 判定 顾客 间 的 差异 是 无 关 紧 要 的 。 

在 上 个 世纪 的 绝 大 多 数 时 间 里 ， 频 率 论 观点 主导 了 人 们 对 概率 的 看 法 ， 而 且 因 此 成 为 大 
多 数 流行 统计 软件 的 基础 。 然 而 ， 在 最 近 十 年 左右 时 间 里 ， 一 种 对 立 的 观点 已 经 受到 了 越 来 
越 多 的 重视 。 这 种 主观 概率 (subjective probability) 观点 自从 人 们 最 初 开 始 整理 概率 思想 时 
就 有 了 ， 然 而 直到 最 近 它 才 开始 引起 人 们 的 重视 。 导 致 这 种 方法 复兴 的 因素 是 计算 机 的 发 展 
和 用 来 操纵 和 处 理 主观 概率 的 强大 算法 的 出 现 。 从 主观 概率 观点 派生 出 的 数据 分 析 理 论 和 方 
法 经 常 被 称 为 贝 叶 斯 统计 (Bayesian statistics)。 贝 叶 斯 统计 的 一 条 核心 原则 是 显 式 地 刻画 数 
据 分 析 问 题 中 所 有 形式 的 不 确定 性 ， 包 括 从 数据 中 估计 的 任何 参数 的 不 确定 性 ， 一 系列 模型 
结构 中 哪 一 个 最 好 或 最 接近 “真实 ”的 不 确定 性 ， 我 们 可 能 要 做 的 任何 预测 的 不 确定 性 ， 等 
等 。 主 观 概率 是 对 这 些 不 同形 式 不 确定 性 建 模 的 一 种 非常 灵活 的 框架 。 

根据 主观 概率 观点 ， 概 率 是 一 个 人 对 一 个 特定 事件 能 否 发 生 的 确信 程度 。 因此 概率 不 是 
外 部 世界 的 客观 属性 ， 而 是 个 人 的 一 种 内 心 状态 一 一 因此 可 能 由 于 个 体 的 不 同 而 不 同 。 幸运 
的 是 ， 已 经 证 明 如 果 我 们 采用 某 种 合理 的 行为 原则 ， 那么 主观 概率 的 公理 集 与 频率 论 观 点 的 
公理 集 是 相同 的 。 因 此 两 种 观点 的 计算 (calculus) 是 相同 的 ， 虽 然 潜在 的 解释 (interpretation ) 
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是 完全 不 同 的 。 

当然 ， 这 并 不 意味 着 使 用 这 两 种 方法 得 到 的 结论 一 定 是 相同 的 。 至 少 ， 主 观 概 率 可 以 应 
用 在 频率 概率 不 适用 的 领域 。 还 有 ， 基 于 主观 概率 的 统计 归纳 必然 包含 某 种 主观 的 成 分 一 一 
认为 一 个 事件 会 发 生 的 初始 或 先 验 (prior) 信心 。 正 像 前 面 所 指出 的 ， 这 个 因素 可 能 因 人 而 
异 。 
尽管 如 此 ， 频 率 论 观点 和 主观 概率 观点 在 很 多 情况 下 会 得 到 大 体 相 同 的 答案 ， 尤 其 是 对 
于 简单 的 假设 和 庞大 的 数据 集 。 很 多 实践 者 并 不 把 自己 约束 在 一 种 或 另 一 种 观点 上 ， 相 反 ， 
他 们 认为 两 种 观点 在 各 自 的 前 提 下 都 是 有 价值 的 ， 分 别 适 用 于 不 同 的 条 件 。 由 频率 论 观点 推 
导出 的 数据 分 析 方 法 往往 计算 更 简单 ， 因 此 当 数 据 集 的 大 小 不 适合 使 用 复杂 计算 方法 时 ， 它 


具有 明显 的 优势 (至 少 到 目前 为 止 是 这 样 )。 然 而 ， 当 应 用 得 当时 ， 贝 叶 斯 (主观 的 ) 方法 


可 以 从 数据 中 发 现 更 加 细微 的 信息 。 近 年 来 ， 在 应 用 统计 中 人 们 已 经 大 大 提高 了 对 贝 叶 斯 方 
法 的 重视 程度 ， 因 此 ， 我 们 可 以 预期 将 来 会 更 多 地 在 数据 挖掘 中 应 用 贝 叶 斯 思想 。 在 本 书 的 
其 余部 分 ， 我 们 将 在 适当 的 地 方 再 次 提 到 频率 论 观点 和 贝 叶 斯 观点 。 正 如 在 本 章 的 后 面 将 要 
看 到 的 ， 可 以 从 某 种 意义 上 把 这 两 种 观点 统一 起 来 ; 可 以 把 拟 合 模型 和 模式 〈 到 数据 ) 的 频 
率 论 方法 实现 为 更 通用 的 贝 叶 斯 方法 的 一 种 特例 。 对 于 实践 者 来 说 这 是 非常 有 用 的 ， 因 为 这 
意味 着 可 以 使 用 一 套 通 用 的 建 模 和 计算 方法 。 


43 ”随机 变量 和 它们 的 关系 


我 们 在 第 2 章 中 介绍 了 变量 的 概念 。 这 一 章 我 们 要 介绍 随机 变量 (random variable) 的 
概念 。 随 机 变量 是 一 种 从 对 象 属性 到 变量 的 映射 ， 它 可 以 取 一 系列 值 中 的 一 个 ， 一 般 来 讲 随 
机 变量 的 取 值 过 程 对 于 观察 者 具有 某 些 不 可 预测 的 因素 。 随 机 变量 X 的 所 有 可 能 值 被 称 为 X 
的 定义 域 。 我 们 使 用 像 xX 这 样 的 大 写字 母 来 表示 随机 变量 ， 并 用 像 x 这 样 的 小 写字 母 来 表示 
随机 变量 的 值 。 

随机 变量 的 一 个 例子 是 投 硬 币 的 结果 (定义 域 是 集合 {heads，tails} )。 随 机 变量 的 不 太 
明显 的 例子 包括 要 抛 出 硬币 的 正面 所 需要 的 次 数 〈 定 义 域 是 正 整数 的 集合 );， 以 及 纸 飞 机 飞 
行 的 秒 数 〈 定 义 域 是 正 实数 的 集合 )。 

本 书 的 附录 定义 了 一 元 (单一) 随机 变量 的 基本 属性 ， 既 包括 了 当 X 的 定义 域 有 限时 的 
概率 质量 函数 p( 六 ， 又 包括 了 当 XX 的 定义 域 为 实数 集 或 实数 集 的 任意 区 间 时 的 概率 密度 函数 
fx)。 在 附录 中 我 们 也 回顾 了 X 的 基本 属性 期 望 ， 对 于 实数 值 的 X，EIX] =| afar. 
因为 E 是 线性 运算 所 以 有 E[X+Y] = ELX] + E[Y]。 这 些 基本 的 属性 是 非常 重要 的 ， 因 为 我 们 
可 以 根据 它们 来 推导 出 用 于 数据 分 析 的 一 些 一 般 原理 ， 在 本 章 的 其 余部 分 我 们 会 经 常 所 到 分 
布 、 密 度 、 期 望 等 概念 。 


多 元 随机 变量 

因为 数据 挖掘 经 常 处 理 多 个 变量 ， 所 以 我 们 必须 也 介绍 一 下 多 元 随机 变量 《multivariate 
random variable) 的 概念 。 一 个 多 元 随机 变量 X 是 一 系列 随机 变量 X,，…，X, 的 集合 。 我 们 
使 用 p 维 向 量 x = (xo x, RRR X 的 一 套 值 。 多 元 随机 变量 X 的 密度 函数 density 
function) AX) 被 称 为 X 的 联合 密度 函数 (joint density function)。 我 们 把 它 表 示 为 AX)=A = 
xo …，XX, = x), RESA flr vy xo RADU, 我 们 可 以 得 到 变量 在 有 限 集合 中 取 值 的 
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X 中 的 单个 变量 〈 或 者 ， 更 一 般 的 情况 是 整个 变量 集合 的 任意 子 集 》 的 密度 函数 被 称 为 
联合 密度 的 边缘 密度 (marginal density )。 从 技术 角度 讲 ， 它 是 根据 联合 密度 通过 对 子 集中 
未 包含 变量 进行 求 和 或 积分 推导 出 的 。 例 如 ， 对 于 一 个 三 元 随机 变量 义 = {X> Xp X} AX) 


的 边缘 密度 为 Ko)= fÈ F Gr x x)dmdx 


某 一 变量 (或 者 整个 变量 集合 的 一 个 子 集 ) 在 给 定 其 他 变量 取 值 〈 也 就 是 “以 这 些 值 

为 条 件 ”) 情况 下 的 密度 被 称 为 条 件 密 度 (conditional density)。 这 样 我 们 就 可 以 说 ， 给 定 X 

取 值 为 6 后 加 变量 的 条 件 密 度 ， 并 将 其 表示 为 让 (zlz= 6)。 一 般 地 ， 给 定 X 的 某 个 值 后 ， 

Xi 的 条 件 密度 被 表示 为 1 alo) PERENA: 

_ f(x1,x2) 
f(x 1x2) Fo) 

对 于 离散 值 的 随机 变量 ， 我 们 也 有 相应 的 定义 (p al as) 等 等 )。 我 们 也 可 以 使 用 二 

者 的 混合 一 一 例如 ， 以 分 类 变量 为 条 件 的 连续 变量 的 概率 密度 函数 f yl a1)， 以 及 相反 情 
况 下 的 概率 质量 函数 jp (alx) 


例 4.1 假定 我 们 有 一 批 来 自 超级 市 场 的 产品 销售 数据 ， 数 据 和 矩阵 中 的 每 个 观 
RAT) 表示 一 个 顾客 购买 的 产品 。 每 一 列表 示 一 种 特定 的 产品 ， 为 每 一 列 定义 一 
个 随机 变量 ， 这 样 每 一 种 产品 都 有 一 个 随机 变量 。 如 果 顾客 购买 了 某 种 产品 ， 那 么 
它 对 应 的 行 和 这 种 产品 对 应 的 列 交叉 处 的 观察 值 为 1， 否则 为 0。 

用 4 表示 一 个 特定 列 的 二 进 制 随机 变量 ， 对 应 于 事件 “购买 产品 A”. A 取 值 
为 1 的 数据 驱动 概率 估计 就 是 购买 产品 A 的 顾客 比例 一 一 也 就 是 nin, HP nÆ 
顾客 总 数 ，n4 是 购买 产品 A 的 顾客 数 。 例 如 ， 如 果 于 = 100000, Hn,=10000, Af 
么 一 个 随机 选取 的 顾客 购买 产品 A 的 概率 估计 是 0.1。 

现在 考虑 第 二 种 产品 (数据 矩阵 中 的 第 二 列 )， 并 用 和 定义 A 相同 的 办 法 定 
义 这 一 列 对 应 的 随机 变量 B. 设 ns 为 购买 产品 B 的 顾客 数量 ;假定 ns = 5 000, 
那么 p (B=1) =0.05. 现在 设 ng 为 既 购 买 了 产品 A 又 购买 了 产品 B 的 顾客 数 。 
根据 与 前 面相 同 的 依据 ， 对 p (A = 1，B = 1) 的 估计 可 以 通过 ma 得 到 。 现 在 
我 们 可 以 把 p (B=11A =1) 估计 为 m4g /na。 例 如， HOR nwg=10, 那么 p (B=11A4 
= 1) = 10/10 000 = 0.001。 从 这 里 我 们 看 到 ， 如 果 我 们 预先 知道 这 个 顾客 购买 了 
产品 A， 那 么 它 购 买 产 品 B 的 概率 就 由 前 面 的 0.05 下 降 到 这 里 的 0.001。 对 于 数 
据 库 中 的 顾客 ， 在 购买 了 A 的 人 中 购买 了 B 的 人 远 比 在 这 个 数据 库 所 有 人 中 购买 
了 B 的 人 少 (而 且 在 购买 了 A 的 人 中 购买 了 B 的 人 比 没 有 购买 A 的 人 中 购买 了 
B 的 人 少 )。 这 提出 了 一 个 这 样 的 问题 ， 是 否 购买 A 通常 会 使 购买 B 的 可 能 性 变 
小 了 呢 ? 还 是 这 个 发 现 完 全 是 仅 对 于 我 们 数据 库 中 碰巧 得 到 的 数据 偶然 成 立 的 
呢 ? 这 正 是 我 们 在 本 章 的 其 余部 分 要 针对 的 问题 ， 特 别 是 在 4.6 节 的 假设 检验 

(hypothesis testing) 中 。 


从 上 面 的 例子 我 们 看 到 ， 多 元 变量 集 X 的 某 些 特定 变量 可 能 以 某 种 方式 密切 地 相互 联 


系 。 实 际 上 ， 数 据 挖 据 的 一 个 一 般 问 题 就 是 发 现 变量 间 的 关系 。 购 买 商品 A 可 能 与 购买 商 
品 B 有 关系 吗 ? 从 一 个 测量 仪器 的 记录 中 探测 出 的 模式 A 是 一 个 特定 错误 所 导致 的 必然 结 





(4.1) 
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果 吗 ?如 果 多 个 变量 的 取 值 相互 间 不 存在 任何 关系 ， 那 么 就 说 这 些 变 量 是 独立 的 

Cindependent); 否则 它们 就 是 依赖 的 《dependent)。 更 严格 地 讲 ， 变 量 x 和 Y 是 独立 的 当 
且 仅 当 对 于 和 X 和 了 的 所 有 值 有 p, y= pQ)p(y)。 一 个 等 价 的 定义 是 X 和 了 是 独立 的 当 且 仅 
当 对 于 X 和 了 的 所 有 值 有 P ly) = pM py | x)= PO)。( 注 意 在 这 些 定义 中 表达 式 中 的 所 
E p 要 么 是 概率 质量 函数 ， 要 么 是 概率 密度 函数 一 一 在 后 一 种 情况 下 变量 独立 的 充 要 条 件 是 
fa y= Kao))。 第 二 种 形式 的 定义 表明 当 变 量 X 和 了 独立 时 ， 不 论 是 否 知 道 了 的 值 蕊 的 
分 布 都 是 相同 的 。 因 此 ，Y 的 取 值 不 会 影响 X 取 值 的 概率 ， 从 这 个 意义 上 来 说 了 不 带 有 任何 
关于 X 的 信息 。 在 描述 超市 销售 的 例子 中 ， 按 照例 子 中 给 出 的 数据 ， 变 量 A 和 变量 B 是 依 
赖 的 。 

我 们 可 以 把 这 些 思想 推广 到 多 于 两 个 变量 的 情况 。 例 如 ， 如 果 对 于 X、Y 和 Z 的 所 有 值 
pix» yl d= p(x | JO 1 2z) 都 成 立 ， 那 么 我 们 就 说 给 定 Z，X 对 了 是 条 件 独立 的 〈conditionally 
independent)。 下 面 举 个 例子 来 说 明 ， 假 定 一 个 人 购买 了 面包 〈 这 使 随机 变量 Z 取 值 为 1). 
然后 又 接着 购买 了 黄油 (随机 变量 X 取 值 1) 和 干酪 (随机 变量 了 取 值 1)。 那 么 X 和 了 就 
有 可 能 是 条 件 独立 的 一 旦 我 们 知道 已 经 购买 了 面包 ， 那 么 购买 干酪 不 会 受 是 否 购 买 黄油 
的 影响 。 

注意 ， 条 件 独 立 未 必 意 味 着 边缘 (marginal) 独立 。 也 就 是 说 ， 上 面 的 条 件 独 立 关 系 并 
不 意味 着 p(x，y)= pC)pGy)。 例 如 在 上 面 的 例子 中 ， 通 常 我 们 会 推测 购买 黄油 和 购买 干 酷 是 
依赖 的 (既然 它们 都 依赖 于 购买 面包 )。 刚 才 的 论断 反 过 来 也 是 成 立 的: X 和 了 可 能 是 (无 
条 件 ) 独立 的 ， 但 对 于 给 定 的 第 三 个 变量 Z 它们 是 条 件 依赖 的 (conditionally dependent). 
这 些 关 于 独立 或 依赖 关系 的 细微 之 处 对 于 数据 挖掘 者 来 说 是 非常 重要 的 。 尤 其 是 ， 即 使 两 个 
观测 变量 〈 例 如 黄油 和 干酪 ) 对 于 给 定 的 数据 可 能 看 起 来 是 依赖 的 ， 但 是 它们 的 真实 关系 可 
能 被 第 三 个 (潜在 但 没有 观测 的 ) 变量 (例如 例子 中 的 面包 ) 掩盖 了 。 


例 4.2 在 研究 和 解释 条 件 独立 的 结论 时 必须 谨慎 。 例 如 考虑 下 面 的 假想 例子 。 
A 和 B 表示 两 种 不 同 的 治疗 ， 下 面 表 中 显示 的 分 数 是 康复 患者 的 比例 (也 就 是 ， 
左上 角 的 2/10 表示 10 个 接受 A 治疗 的 老年 患者 中 有 2 个 康复 了 )。 数 据 被 分 割 成 
老年 和 青年 两 组 ， 分 组 的 依据 是 他 们 是 否 超过 30 岁 。 





A B 
老年 2/10 30/90 
青年 48/90 10/10 


对 于 两 个 年 龄 层 的 每 一 组 ，B 治疗 看 起 来 都 优 于 A 治疗 。 然 而 ， 现 在 考虑 总 

的 结果 一 一 通过 把 上 表 中 的 两 行 汇总 : 
A B 
汇总 50/100 40/100 

总 体 来 看 ， 在 这 个 汇总 表 中 A 治疗 似乎 比 B 治疗 要 好 。 乍 一 看 ， 这 个 结果 似 
平 是 相当 神奇 的 (事实 上 ， 这 被 称 为 辛普森 悖 论 ( Simpson's paradox ) ( Simpson, 
1951 ) )。 

导致 这 两 种 似乎 矛盾 结果 的 原因 是 ， 第 一 张 表 的 结果 是 以 特定 年 龄 层 为 条 件 
的 ， 而 第 二 张 表 的 结果 是 无 条 件 的 。 当 合并 两 个 有 条 件 的 结论 时 ， 四 组 样本 的 大 小 
差异 导致 基于 较 大 样本 的 比例 (“老年 Bx” 和 “青年 A”) 支配 了 另 两 个 比例 。 
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条 件 独 立 的 假定 被 广泛 用 于 处 理 序 列 化 《〈sequential) 数据 的 场合 。 对 于 数据 序列 ， 只 要 
给 定 序 列 中 的 当前 值 ， 那 么 序列 中 的 下 一 个 值 经 常 是 独立 于 序列 中 所 有 过 去 的 值 。 在 这 种 情 
况 下 ， 条 件 独 立 被 称 为 一 阶 马 东 可 夫 〈first-order Markov) 属性 。 

在 后 面 的 章节 中 我 们 会 看 到 ， 独 立 和 条 件 独 立 〈 可 以 把 条 件 独立 看 作 是 独立 的 一 般 化 ) 
的 思想 是 数据 分 析 中 很 多 关键 概念 的 核心 。 独 立 和 条 件 独 立 的 假定 使 我 们 可 以 把 多 个 变量 的 
联合 密度 表示 成 更 容易 处 理 的 较 简 单 密度 的 连 乘 ， 也 就 是 : 


fax) = fT fj lx) (4.2) 
j=2 
其 中 每 个 变量 x BEAR x CRRA 罗 ， 应 为 轨 1。 一 一 译 者 注 ) 的 情况 下 与 变量 为 ，…， 
Xun 条 件 独立 的 (这 是 一 阶 马尔 可 夫 模型 中 的 一 个 例子 )。 这 样 的 简化 除了 带 来 计算 的 方便 外 
还 有 助 于 以 更 少 参数 建立 更 好 理解 的 模型 。 但 是 ,很 多 实际 情况 是 不 符合 独立 假定 的 (例如 ， 
假定 文本 中 的 字母 序列 符合 一 阶 马 尔 可 夫 模型 是 不 现实 的 )。 尽 管 如 此 ， 应 该 知道 我 们 的 模 
型 只 是 对 真实 世界 的 近似 ， 恰 当 的 独立 假定 所 带 来 的 好 处 经 常 胜 过 建立 一 个 更 加 复杂 却 不 太 
稳定 的 模型 。 在 第 6 章 中 我 们 会 更 详细 地 讨论 这 样 的 建 模 问题 。 
依赖 的 一 个 特例 是 相关 (correlation)， 或 者 说 线性 依赖 ， 在 第 2 章 中 我 们 介绍 了 这 个 概 
念 。( 注 意 统计 依赖 与 相关 不 同 ， 两 个 变量 可 能 依赖 但 并 不 线性 相关 )。 如 果 一 个 变量 的 较 高 
值 与 另 一 个 变量 的 较 高 值 关联 那么 我 们 说 它们 是 正 相 关 ， 相 反 ， 如 果 一 个 变量 的 较 高 值 与 另 
一 个 变量 的 较 低 值 关 联 那 么 我 们 说 它们 是 负 相 关 。 千 万 注意 不 要 把 相关 混淆 为 因果 关系 
(causation)。 两 个 变量 可 能 高 度 正 相关 ， 但 它们 间 不 存在 任何 因果 关系 。 例 如 ， 指 甲 王 黄 
和 肺癌 可 能 相关 ， 但 它们 仅 是 通过 第 三 个 变量 有 因果 联系 ， 也 就 是 一 个 人 是 否 吸 烟 。 类 似 
地 ， 人 的 反应 速度 和 他 挣 钱 多 少 可 能 是 负 相 关 ， 但 是 这 不 意味 着 一 个 导致 男 一 个 。 这 种 情况 
下 一 个 更 有 说 服 力 的 解释 是 ; 第 三 个 变量 ， 年 龄 ， 与 这 两 个 变量 都 有 因果 联系 。 


例 4.3 美国 医疗 协会 杂志 (Journal of the American Medical Association ) 1987 
年 发 表 的 一 篇 论文 (257 K, 785 页 ) 分 析 了 美国 77 家 医院 所 作 的 18 986 例 冠 状 
动脉 旁 路 移植 手术 的 院内 死亡 率 。 回 归 分 析 (US 11 章 ) 表明 手术 次 数 越 多 的 医 
院 趋向 于 越 低 的 院内 死亡 率 ( 已 经 根据 不 同 医 院 的 不 同 病 例 类 型 对 数据 作 了 调整 )。 
基于 这 个 模式 该 文 得 出 结论 ， 如 果 关 闭 低 手术 量 的 手术 室 ， 那 么 这 种 类 型 手术 导致 
的 院内 死亡 率 就 会 降低 。 

Rin, 要 判断 手术 结果 的 质量 和 治疗 病例 数量 间 的 关系 , 需要 一 种 纵向 的 分 析 。 
在 这 一 分 析 中 不 该 过 分 重视 规模 的 大 小 。 如 果 手 术 量 大 的 医院 的 手术 量 继续 增长 ， 
那么 可 能 导致 它 们 的 手术 质量 变 差 。 手 术 结 果 和 规模 的 相关 可 能 不 是 由 于 较 大 的 规 
模 就 导致 出 众 的 治疗 效果 ， 而 是 因为 出 众 的 治疗 效果 吸引 了 更 多 的 患者 ， 也 有 可 能 
无 论 是 患者 的 数量 还 是 手术 的 结果 都 是 与 其 他 因素 相 联 系 的 。 


44 样本 和 统计 推理 


正如 我 们 在 第 2 章 中 所 指出 的 ， 一 些 数据 挖掘 问题 包括 了 感 兴趣 的 整个 总 体 ， 而 另 一 些 
问题 仅 包括 了 来 自 这 个 总 体 的 一 个 样本 。 对 于 后 一 种 情况 ， 可 能 本 来 就 只 有 样本 一 一 或 许 仅 
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选择 纳税 者 的 一 个 样本 来 做 详细 的 调查 ， 或 许 仅 是 偶尔 开展 全 面 的 人 口 普 查 ， 在 大 多 数 的 年 
份 仅 是 选择 样本 ; 或 许 数据 集 是 由 市 场 调查 结果 组 成 的 。 另 一 方面 ， 即 使 可 以 得 到 完整 的 数 
据 集 ， 但 数据 挖掘 操作 是 在 一 个 样本 上 进行 的 。 如 果 目 标 是 建 模 〈 参 见 第 1 章 )， 那 么 这 样 
做 是 完全 合理 的 ， 因 为 建 模 是 要 寻找 数据 的 显著 结构 ， 而 不 是 细小 的 特异 和 偏离 (deviation )。 
这 样 的 结构 会 保持 在 样本 中 ， 只 要 样本 不 要 太 小 。 然 而 ， 如 果 目 标 是 模式 识别 ， 那 么 对 大 的 
数据 集 抽取 小 的 样本 就 不 太 适 合 了 ， 因 为 这 时 的 目标 是 探测 数据 主体 的 细小 偏离 ， 因 此 如 果 
样本 太 小 ， 那 么 偏离 就 可 能 被 排除 在 外 。 此 外 ， 如 果 目 标 是 探测 反常 行为 的 记录 ， 那 么 必须 
基于 整个 样本 进行 分 析 。 

正 是 当 使 用 样本 时 ， 才 发 挥 出 了 统计 推理 的 作用 。 通 过 统计 推理 〈statistical inference), 
我 们 可 以 论断 总 体 的 结构 ， 估 计 这 些 结构 的 大 小 ， 并 指出 对 这 些 结论 的 置信 度 (degree of 
confidence)， 而 这 一 切 都 依赖 于 样本 〈 参 见 图 4-1， 图 中 简单 画 出 了 概率 和 统计 的 作用 )。 例 
如 ， 我 们 可 以 说 总 体 值 的 最 佳 估计 是 63， 也 可 以 说 ， 我 们 对 真实 的 总 体 值 位 于 5.9 到 6.7 之 
间 有 95% 的 把 握 。( 定 义 和 解 释 这 样 的 区 间 是 很 繁琐 的 ， 因 为 这 依赖 于 我 们 采用 的 哲学 基础 
一 例如 是 频率 论 的 还 是 贝 叶 斯 的 。 我 们 将 在 本 章 的 后 面 更 多 地 介绍 这 样 的 区 间 。) 注意 这 
里 我 们 对 总 体 值 使 用 了 估计 (estimate) 一 词 。 如 果 我 们 是 基于 整个 总 体 进行 分 析 ， 那 么 我 
们 将 使 用 计算 《〈caleulate) 这 个 词 : 因为 如 果 已 经 知道 了 所 有 的 组 成 要 素 ， 那 么 我 们 就 可 以 
实际 计算 出 总 体 的 值 ， 也 就 不 存在 估计 的 概念 了 。 

概率 


-一 


模型 数据 
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统计 推理 


图 4-1 概率 和 统计 在 数据 分 析 中 的 作用 图 示 。 概 率 确定 了 观测 数据 是 如 
何 从 模型 中 产生 的 。 统 计 推理 允许 我 们 从 观测 数据 中 推理 出 模型 


为 了 对 总 体 结构 做 出 推理 ， 我 们 必须 在 脑海 中 有 一 个 模型 或 模式 结构 ， 如 果 我 们 从 来 没 
有 想到 某 种 结构 的 存在 ， 那 么 我 们 也 就 无 法 评估 数据 中 潜在 某 种 结构 的 证 据 。 例 如 ， 我 们 可 
能 假设 某 一 变量 Z 的 值 依赖 于 其 他 两 个 变量 X 和 了 的 值 。 我 们 的 模型 是 Zt XA YAR. 
然后 我 们 可 以 在 数据 中 估计 这 个 关系 的 支持 度 。( 当 然 ， 我 们 可 能 得 出 这 样 的 结论 : 这 两 个 
关系 的 支持 度 为 0 一 一 也 就 是 根本 没有 关系 。) 

统计 推理 是 基于 这 样 的 前 提 的 : 样本 是 从 总 体 中 以 随机 方式 抽取 的 一 一 这 使 得 总 体 中 
的 每 一 个 成 员 都 有 一 定 的 概率 出 现在 样本 中 。 模 型 将 确定 总 体 的 分 布 函数 一 一 随机 变量 的 
特定 值 在 样本 中 出 现 的 概率 。 例 如 ， 如 果 模 型 指出 数据 是 从 一 个 正 态 分 布 产 生 的 ， 这 个 正 
态 分 布 的 均值 为 0， 标 准 差 为 1。 那 么 这 也 同时 告诉 我 们 观察 到 20 这 样 大 的 数据 的 概率 是 
很 小 的 。 而 且 ， 如 果 假 定 模型 是 正确 的 ， 那 么 我 们 可 以 给 出 观察 到 大 于 20 的 值 的 精确 概 
率 。 给 定 了 模型 ， 我 们 一 般 便 可 以 计算 一 个 观察 的 结果 落 入 任意 区 间 的 概率 。 对 于 符合 范 
上 畴 型 分 布 的 样本 ， 我 们 可 以 估计 新 的 值 与 已 经 出 现 的 每 一 个 值 相等 的 概率 。 一 般 来 说 ， 如 








we 
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果 我 们 得 到 了 数据 的 模型 M， 那 么 我 们 就 可 以 指出 一 个 随机 抽样 过 程 得 到 数据 D 的 概率 ， 
D = {x(1)，…，Xx(n)}， 这 里 x(i) 是 第 i 个 p 维 测量 向 量 (在 我 们 的 n x p 数据 矩阵 中 的 第 i 
行 )。 这 个 概率 被 表示 为 p (D1M)。 很 多 时 候 我 们 并 不 明确 地 指出 对 模型 M 的 依赖 ， 而 简 
单 地 写 为 p(D)， 依 赖 上 下 文 来 做 出 说 明 。( 正 如 附录 中 所 指出 的 ， 如 果 一 个 变量 服从 连续 
累积 分 布 函 数 ， 那 么 观察 到 它 取 任何 特定 值 的 概率 是 0 一 一 特定 值 意 昧 着 区 间 的 长 度 为 0, 
因此 概率 密度 函数 跨越 这 一 区 间 的 区 域 面积 是 0。 然 而 ， 所 有 的 实际 数据 实际 上 都 是 指 有 
限 的 《即使 很 小 》 区 间 ( 例 如， 如 果 说 某 个 人 的 身高 为 5 英尺 11 英寸 ， 那 么 别人 知道 这 
个 人 的 高 度 是 介 于 5 英尺 10.5 英寸 和 5 英尺 11.5 英寸 之 间 )。 因 此 在 实践 中 ， 谈 论 观 察 到 
任何 特定 值 的 概率 是 没有 意义 的 。) 

BE p(x) WMA i 取 测量 向 量 x(0) 的 概率 (这 里 的 p 可 能 是 概率 质量 函数 或 概率 密度 函 
数 ， 视 x 的 特性 而 定 )。 如 果 我 们 进一步 假定 总 体 中 的 每 一 个 成 员 被 选择 进入 推理 用 样本 的 
概率 不 会 影响 其 他 成 员 被 选择 的 概率 (也 就 是 每 个 观测 是 独立 的 ， 或 者 说 数据 是 随机 抽取 
的 )， 那 么 观察 到 所 有 样本 值 的 总 概率 就 是 个 体 概率 的 乘积 : 


p(D16,M)=] | pale,M) (4.3) 
i=l 
其 中 以 为 模型 ,9 是 模型 的 参数 (假定 在 这 一 点 是 固定 的 )。( 当 把 这 个 公式 看 作 模 型 参数 8 的 
函数 时 , 这 个 公式 被 称 为 似 然 函数 (Jikelihood function). 我 们 将 在 后 面 对 此 进行 详细 的 讨论 。) 
已 经 开发 出 了 一 些 方法 来 处 理 观 测 到 一 个 值 会 改变 观测 到 另 一 个 值 的 机 会 的 情况 ， 但 是 各 个 
观测 相互 独立 是 迄今 为 止 最 普遍 使 用 的 假定 ， 尽 管 这 仅 是 近似 的 正确 。 

根据 这 个 概率 ， 我 们 可 以 判断 假定 模型 的 真实 性 。 如 果 我 们 的 计算 表明 假定 模型 产生 
观察 数据 的 可 能 性 非常 小 ， 那 么 我 们 会 觉得 拒绝 这 个 模型 是 合理 的 ， 这 是 假设 检验 的 基本 
原则 (4.6 节 )。 在 假设 检验 中 ,如果 符 合 模型 的 观察 数据 的 概率 低 于 某 个 预先 定义 的 值 (经 
常 是 0.01 或 0.05 一 一 检验 的 显著 性 水 平 〈significance level))， 那 么 我 们 就 会 决定 拒绝 这 个 
假定 模型 。 

在 估计 模型 参数 的 总 体 值 时 使 用 了 一 个 类 似 的 原则 。 假 定 我 们 的 模型 指出 数据 服从 单位 
方差 的 正春 分 布 ， 但 均值 未 知 。 我们 可 以 提出 很 多 用 作 均 值 的 不 同 值 ， 对 于 每 一 个 ， 计 算 
如 果 总 体 的 均值 为 该 值 时 观察 数据 的 发 生 概率 。 我 们 可 以 对 每 一 个 值 进行 假设 检验 ， 拒 绝 导 
致 观 察 数据 发 生 概率 很 低 的 那些 值 。 或 者 我 们 可 以 缩短 这 个 过 程 ， 就 使 用 可 以 使 观察 数据 的 
发 生 概率 最 高 的 均值 估计 。 这 个 值 被 称 为 均值 的 最 大 似 然 估 计 值 ， 这 一 我 们 刚刚 描述 的 过 程 
被 称 为 最 大 似 然 估 计 ( 见 4.5 节 )。 当 把 一 个 特定 模型 产生 观察 数据 的 概率 表示 为 模型 参数 
的 函数 时 ， 这 个 函数 被 称 为 似 然 函 数 。 也 可 以 用 这 个 函数 来 定义 一 个 参数 可 能 值 区 间 ?; 例 
如 ， 我 们 可 以 说 ， 假 定 我 们 的 模型 是 正确 的 ， 那 么 按 这 种 方式 根据 数据 样本 产生 的 参数 可 能 
值 区 间 中 有 90% 将 包含 参数 的 正确 值 S。 


钊 ”译注 ， 即 选择 一 个 阐 值 TY， 导致 似 然 大 于 了 的 任何 参数 值 位 于 这 个 区 间 中 ， 导致 似 然 小 于 了 的 任何 参数 值 不 在 这 个 区 
间 中 。 

O 译注: 给 定 一 个 数据 集 ， 我 们 便 可 以 定义 一 个 可 能 值 区 间 ， 因此 这 个 区 间 会 随 数据 集 的 变化 而 变化 。 对 于 许多 数据 集 
来 说 ， 会 有 90%% 的 区 间 包 含 真实 参数 值 (90% 是 举例 来 说 的 ， 当 然 也 可 以 选择 其 他 百分比 )。 
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4.5 估计 


在 第 3 章 中 我 们 描述 了 几 种 技术 来 概括 一 个 给 定 的 数据 集 。 当 我 们 致力 于 统计 推理 时 ， 
我 们 希望 得 出 更 通用 的 结论 ， 关 于 被 抽样 总 体 的 结论 。 这 些 结论 是 关于 概率 分 布 或 者 概率 密 
度 函 数 的 (或 者 等 价 地 说 是 关于 累积 (cumulative) 分布 函数 的 )， 数 据 被 假定 为 是 从 这 些 
分 布 中 产生 的 。 
4.5.1 估计 量 的 理想 属性 

在 接 下 来 的 小 节 中 ， 我 们 将 描述 两 种 最 重要 的 模型 参数 估计 方法 : 极 大 似 然 佑 计 和 贝 叶 
斯 估计 。 注 意 不 同方 法 间 的 差异 是 很 重要 的 ， 因 为 这 样 我 们 才能 选 出 一 种 适合 我 们 的 问题 的 
方法 。 这 里 我 们 先 简要 地 描述 估计 量 〈estimator) 的 一 些 重要 属性 。 设 0 是 参数 9 的 估计 量 。 
因为 6 是 从 数据 推导 出 的 一 个 数字 ， 那 么 如 果 我 们 抽取 不 同 的 数据 样本 ， 我 们 就 会 得 到 一 个 
不 同 的 6 值 。 因 此 6 是 一 个 随机 变量 。 所 以 ， 它 具有 一 种 分 布 ， 随 着 抽取 样本 的 不 同 而 取 不 
同 的 值 。 我 们 可 以 得 到 这 个 分 布 的 一 些 描 述 性 概括 。 例 如 ， 这 个 分 布 将 具有 一 个 均值 或 期 望 
值 一 一 E16 ]。 这 里 期 望 函 数 E 是 由 假定 数据 从 中 采样 的 真实 〈 未 知 ) 分 布 决定 的 一 一 也 就 
是 ， 对 于 所 有 可 能 发 生 的 容量 为 n 的 数据 集 按 它们 的 发 生 概率 加 权 。 

6 的 偏差 bias) 在 第 2 章 中 我 们 非 正式 的 介绍 过 这 个 概念 ) 是 这 样 定义 的 : 

Bias(6 ©)= E[@ | - 0 (4.4) 


也 就 是 估计 量 的 期 望 值 E[6 ] 和 参数 6 的 真实 值 的 差异 。 满 足 E[6 ] = 6 的 估计 量 的 偏差 
为 0， 被 称 为 是 无 偏 的 《unbiased)。 平 均 来 看 ， 这 样 的 估计 量 与 真实 参数 值 间 没有 系统 的 
(systematic) 偏离 〈departure)， 尽 管 对 于 任 一 特定 单一 数据 集 D， 6 可 能 远离 69。 注意 样本 
分 布 和 6 的 真实 值 实际 上 都 是 未 知 的， 我 们 通常 不 能 计算 对 于 给 定数 据 集 的 实际 偏差 。 尽 管 
如 此 ， 偏 差 〈 以 及 下 面 的 方差 ) 的 一 般 概 念 在 估计 中 是 绝对 重要 的 。 
就 像 估计 量 的 偏差 可 以 衡量 它 的 质量 一 样 ， 估 计量 的 方差 也 可 以 做 到 这 一 点 : 
Var(6 )=E[6 - ELÊ IP (4.5) 


方差 衡量 了 估计 误差 中 的 随机 的 和 由 数据 导致 的 那 一 部 分 ， 它 反映 了 估计 量 对 数据 集中 的 
特异 性 的 敏感 程度 。 注 意 方差 不 依赖 于 9 的 真实 值 一 一 它 仅 衡量 我 们 的 估计 对 于 不 同 的 观测 数 
据 集 变 化 程度 有 多 大 。 因 此 ， 尽 管 真实 的 采样 分 布 是 未 知 的， 原则 上 我 们 还 是 可 以 得 到 一 个 估 
计量 方差 的 数据 驱动 估计 (对 于 给 定 的 n 值 )， 方法 是 反复 对 原始 的 数据 做 二 次 抽样 并 计算 从 这 
些 模拟 样本 估计 出 的 6 的 方差 。 我 们 可 以 在 具有 相同 偏差 的 估计 量 中 选取 最 小 方差 的 一 个 估计 
量 。 具 有 最 小 方差 的 无 偏 估 计量 被 顺理成章 地 称 为 最 佳 无 偏 估计 量 (best unbiased estimators). 

举 一 个 极端 的 例子 ， 设 想 我 们 完全 忽视 数据 D 并 且 武 断 地 说 对 于 任意 的 数据 集 都 有 6 = 
L WA var(6 ) 便 为 0， 因 为 6 的 估计 根本 不 随 着 D 的 改变 而 改变 。 然 而 在 实践 中 这 是 一 个 
根本 无 效 的 估计 量 ， 因 为 除非 我 们 非常 幸运 地 猜 中 ,否则 我 们 对 9 的 估计 几乎 一 定 是 错误 的 ， 


© Pk: AERES Bias (@) =E[6 ] -96 ， 系 排版 错误 。 
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也 就 是 说 存在 一 个 非 0《〈 而 且 可 能 非常 大 ) 的 偏差 。 
6 的 均 方 误差 (mean squared error) 是 EK - 923， 即 估计 量 的 值 和 参数 的 真实 值 间 的 
差异 平方 的 均值 。 均 方 误差 可 以 分 解 为 6 的 偏 美的 平方 以 及 它 的 方差 的 和 : 
E\6 -6)?|- E\6 ~ E16) + E16] -6)?| 
= BO -of + Elé 一 rtn] 


= (Bias(y} +Var(6) (4.6) 


在 从 第 一 行 到 第 二 行 的 转化 中 ， 我 们 利用 了 平方 表达 式 中 交叉 项 相互 抵消 ， 当 6 为 常数 
时 ELb = 0; 等 等 。 均 方 误差 是 一 个 非常 有 价值 的 标准 ， 因 为 它 联合 了 估计 量 和 真实 值 间 的 
系统 〈 偏 差 ) 差异 和 随机 (方差 ) 差异 (当然 ， 它 也 主要 是 为 理论 研究 服务 的 ， 因 为 计算 它 
需要 知道 9 这 个 在 实践 中 不 知道 的 量 )。 不 幸 的 是 ， 偏 差 和 方差 经 常 是 按 不 同方 向 变化 的 ， 
修改 一 个 估计 量 以 减 小 它 的 偏差 会 增加 它 的 方差 ， 反 之 亦 然 。 所 以 关键 是 得 到 一 个 最 佳 的 折 
变 。 平 衡 偏差 和 方差 是 数据 挖掘 的 一 个 核心 问题 ， 我 们 将 在 第 6 章 返 回 到 这 个 话题 作 一 般 性 
的 讨论 ， 在 之 后 的 章节 将 结合 具体 问题 作 更 有 针对 性 的 讨论 。 

在 估计 中 使 用 均 方 误差 还 该 注意 一 些 更 细微 的 问题 。 例 如 ， 误 差 平 方 同等 对 待 偏离 6 一 
样 远 的 估计 值 , 无 论 它 在 9 之 上 还 是 之 下 。 这 对 衡量 位 置 是 合适 的 , 但 对 衡量 离 差 (dispersion ) 
(根据 定义 ， 离 差 的 下 边界 可 以 小 于 0) 或 估计 概率 或 概率 密度 就 可 能 不 适合 了 。 

假定 我 们 有 一 个 估计 量 的 序列 9 ，…，6 ， 它 们 是 基于 递增 的 样本 大 小 ne ts Ane 
如 果 随 着 样本 容量 的 增 大 6 与 真实 值 6 的 差异 大 于 任 一 给 定 值 的 概率 趋向 于 0， 那 么 就 说 这 
个 序列 是 一 致 的 〈consistent)。 这 显然 是 一 个 有 吸引 力 的 属性 〈 特 别 对 于 数据 挖掘 场合 ， 
样本 非常 庞大 )， 因 为 样本 越 大 估计 量 可 能 越 靠 近 真实 值 〈 假 定数 据 来 自 于 一 个 特定 的 分 
布 一 一 根据 第 1 章 和 第 2 章 的 讨论 ， 对 于 非常 庞大 的 数据 库 这 个 假定 可 能 是 不 合理 的 )。 
4.5.2 ”最 大 似 然 估计 


最 大 似 然 估 计 是 应 用 最 广 的 参数 估计 方法 。 考 虑 一 个 包含 n 个 观测 的 数据 集 D = {x，…， 
x(n)}， 它 是 从 同一 个 分 布 fx | g@ 独 立 采 样 得 到 的 (用 统计 学 家 的 话 来 讲 即 独 立 同 分 布 
(independently and identically distributed)， 或 者 叫 iid). 14 vB L(AI x (1)，…， XxX(n)) 是 对 于 
给 定 的 9 值 这 些 已 经 发 生 数据 的 概率 ， 也 就 是 p(D | 外， 它 是 关于 6 的 函数 。 注 意 尽 管 我 们 在 
这 里 隐 含 的 假定 了 一 个 特定 的 模型 M， 但 是 就 像 定义 fx 1 9) 一 样 ， 为 了 方便 ， 我 们 没有 明确 
地 写 出 M 一 一 后 面 当 我 们 考虑 多 个 模型 时 ， 我 们 将 需要 明确 的 区 分 我 们 谈论 的 是 哪 一 个 模型 。 
既然 我 们 已 经 假定 了 观察 是 独立 的 ， 那 么 我 们 就 可 以 得 到 : 
ZLO1D) = L@1xd),°* ,x(n)) 
= p(x(1),°** ,x(n)10) 


s[e (4.7) 


这 是 9 的 一 个 标量 函数 〈 其 中 6 本 身 可 能 是 参数 向 量 ， 而 不 是 一 个 单一 的 参数 )。 一 个 
数据 集 的 似 然 (likelihood of a data set) L(@ | D), 即 实际 观测 的 数据 对 于 一 个 特定 模型 的 概 
率 ， 是 数据 分 析 的 一 个 基本 概念 。 为 一 个 给 定 问题 定义 似 然 等 同 于 确定 产生 数据 的 概率 模型 。 
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已 经 证 明 ， 一 旦 我 们 能 够 找到 这 样 的 似 然 ， 那 么 我 们 便 打 开 了 统计 推理 的 大 门 ， 可 以 应 用 其 
中 很 多 通用 的 强大 方法 。 注 意 既 然 似 然 是 定义 为 8 的 函数 ， 那 么 我 们 就 可 以 删除 或 忽略 p(D | 
6) 中 所 有 不 含 6 的 项 ， 也 就 是 说 ， 似 然 仅 定义 在 任意 缩放 的 常量 范围 内 ， 所 以 我 们 所 关心 的 
是 6 的 函数 的 形状 ， 而 不 是 函数 的 实际 值 。 也 该 注意 上 面 的 idd 假定 对 于 似 然 的 定义 是 不 必 
要 的 ， 例 如， 如 果 上 个 观察 符合 马尔 可 夫 依 赖 关 系 〈 其 中 每 一 个 xD 依赖 于 x(D)， 那 么 我 
们 可 以 把 似 然 定义 为 像 Kx(DlxG- 1D)，g9) 这 样 的 项 的 乘积 。 
使 已 经 发 生 数据 的 概率 最 大 的 9 值 就 是 最 大 似 然 估计 量 (maximum likelihood estimator) 
(CRAM MLE). BATH Oy, 表示 8 的 最 大 似 然 估计 量 。 
例 4.4 超市 中 的 顾客 要 么 购买 牛奶 ， 要 人 么 不 购买 牛奶 。 假 定 我 们 要 对 购买 牛 
奶 顾客 的 比例 做 出 估计 ， 根 据 是 从 数据 库 中 随机 抽取 的 1 000 个 观测 值 的 样本 
x(1)，…，x(1 000)。 这 里 如 果 第 i 个 顾客 确实 购买 了 牛奶 ， 那 么 x(i)= 1， 否 则 为 0。 
假设 这 些 独 立 观 察 遵循 的 是 二 项 分 布 (参见 附录 )， 但 参数 0< 0 《1 未知; 也 就 是 
说 ，6 是 一 个 随机 顾客 购买 牛奶 的 概率 。 对 于 给 定 的 模型 ， 在 通常 的 条 件 独立 假定 
下 ， 似 然 函 数 可 以 写 为 : 
L(@ 1 x(1),***, x(1000)) = [je a-0) =” =@" 1-9) 


其 中 是 1000 名 顾客 中 购买 牛奶 的 顾客 数 。 对 上 式 取 对 数 得 到 : 
(@)= log L(@) = rlog@ + (1000 —r) log — @) 
对 上 式 求 导数 并 令 其 为 0， 得 到 





从 上 式 我 们 可 以 解 出 6 =r/1 000。 因 此 ， 购 买 牛奶 者 的 比例 事实 上 也 就 是 在 
这 个 二 项 分 布 中 0 的 最 大 似 然 估 计 。 

在 图 4-2 中 我 们 画 出 了 在 这 个 二 项 分 布 模型 下 的 三 组 假想 数据 关于 6 的 似 然 函 
数 曲 线 。 三 个 数据 集 分 别 对 应 n=10、n = 100、n = 1000 个 顾客 中 有 了 个 、70 个 和 
700 个 牛奶 购买 者 。 每 一 种 情况 中 似 然 函 数 的 峰值 都 发 生 在 8= 0.7 时 ， 但 随 着 的 
增 大 (也 就 是 当 我 们 具有 席 大 的 顾客 数据 库 时 )9 真实 值 的 不 确定 范围 越 来 越 小 ( 反 
应 在 似 然 函 数 的 伸展 范围 )、 似 然 函 数 的 绝对 值 是 不 重要 的 ， 重 要 的 是 它 的 形状 。 


例 4.5 假定 n 个 数据 点 的 样本 x(1)，…，x(n) 是 从 一 个 正 态 分 布 独立 抽取 的 ， 
正 态 分 布 具有 单位 方差 ， 但 均值 6 未 知 。 当 不 确定 性 的 来 源 是 测量 误差 时 就 可 能 发 
生 这 样 的 情况 ;我们 可 能 知道 结果 具有 确定 的 方差 (这 里 为 1 )， 但 不 知道 反复 测 
量 的 对 象 的 均值 。 那 么 9 的 似 然 函数 为 : 


L(O |x), , x(n)) = [en exp{ —300 -0) | l 
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图 4-2 ”二 项 模型 下 的 三 个 假想 数据 集 的 似 然 函数 。 三 幅 图 分 别 对 应 >= 
7, n=10 CE); r=70, n=100 (F); r=700, n= 1000 (F) 


它 的 对 数 似 然 (log-likelihood ) 被 定义 为 : 


n 1x . 
LE | x(1),"**, x(n) =~ log 2m-7 BW -0% (4.8) 
为 了 求 出 MLE 我 们 今 导数 -109 1 xD,…，x(rD) 为 0， 于 是 得 到 : 


Yow -0)=0 


i=] 


所 以 ，6 的 最 大 似 然 居 计 量 为 EMr = 2 x(i) 1n， 即 样本 的 均值 。 


图 4-3 画 出 了 关于 6 的 似 然 函数 和 对 数 似 然 函数 1( 09) = log L( 8)， 所 用 的 样 
本 是 来 自 正 态 分 布 的 20 个 数据 点 ， 正 态 分 布 的 真实 均值 为 0， 而 且 已 知 标准 偏差 
为 1. 图 4-4 画 出 了 同样 类 型 的 图 形 ， 但 是 是 对 于 200 个 数据 点 的 。 BUR BR 
的 峰值 在 真实 均值 0 附近 的 情况 。 也 请 注意 随 着 数据 的 增多 似 然 函数 是 如 何 变 窜 
的 ， 这 反映 了 数据 对 不 靠近 0 的 0 值 的 支持 的 下 降 。 
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4-3 ”数据 点 来 自 真 实 均值 为 0 而 且 已 知 标准 差 为 1 的 正 态 分 布 : (a) 从 真实 模型 产生 的 20 个 
数据 点 的 直方 图 (上 )，(b) 关于 6 HURRAA CP): (c) 关于 6 的 对 数 似 然 函 数 ( 下 ) 




















图 4-4 “与 图 4-3 相 同 模型 的 200 个 数据 点 的 似 然 函 数 。(a) 从 真实 模型 产生 的 200 个 数据 点 
的 直方 图 (上 ); Cb) 关于 6 MUREA OH): (Cc) 关于 6 的 对 数 似 然 函 数 (下 ) 


例 4.6 在 统计 估计 中 ， 充 分 统计 量 〈sufficient statistic) 的 概念 是 很 有 价值 的 。 


简单 地 讲 , 如 果 似 然 函数 L( 鸭 仅 通过 一 个 量 5(D) 依 赖 数据 ,那么 我 们 就 把 这 个 量 s(D) 
定义 为 6 的 充分 统计 量 。 于 是 ， 在 上 面 的 二 项 模型 中 , “成 功 ” 的 总 数 r+ (购买 牛 
奶 的 人 数 ) 就 是 二 项 参数 0 的 充分 统计 量 。 充 分 的 含义 是 似 然 仅 是 了 的 通 数 (假定 
n 已 经 知道 )， 从 我 们 的 二 项 模型 的 角度 来 看 ， 一 旦 我 们 已 经 知道 了 总 的 Pr 那么 知 
道 哪 一 个 特定 的 顾客 购买 了 牛奶 ( 数据 矩阵 中 哪 一 个 特定 行 的 “牛奶 ” 列 为 1) 是 
无 关 紧 要 的 。 类 似 地 ， 对 于 上 面 的 需要 估计 正 态 分 布 均值 的 例子 ， 观 察 的 总 和 


YO 是 均值 似 然 的 充分 统计 量 ( 记 住 似 然 仅 定义 为 8 的 函数 ， 因 此 所 有 不 包 


AO 的 其 他 项 都 可 以 删除 )。 

对 于 大 规模 的 数据 集 ， 充 分 统计 量 的 概念 在 实践 中 是 非常 有 价值 的 一 一 不 必 工 
作 在 整个 数据 集 上 ， 只 需 简单 地 计算 和 存储 充分 统计 量 ， 只 要 我 们 知道 了 对 于 似 然 
估计 这 些 量 是 充分 的 。 例 如 ， 如 果 我 们 在 收集 大 批量 的 日 常数 据 ( 例如 网 络 日 志 )， 
那么 原则 上 我 们 只 要 每 天 晚上 更 新 充分 统计 量 ， 然 后 把 原始 数据 扔 掉 。 然 而 不 幸 的 
是 ， 对 于 很 多 更 复杂 的 模型 经 常 是 不 存在 充分 统计 量 的 ， 特 别 是 那些 我 们 想 在 数据 
安 气 应 用 中 使 用 的 ,例如 在 本 书 的 后 面 要 详细 讨论 的 树 ， 混 合 模型 等 等 。 尽管 如 此 ， 
对 于 比较 简单 的 模型 ， 充 分 统计 量 是 一 个 非常 有 价值 的 概念 。 


最 大 似 然 估计 既 具 直 观 性 ， 又 有 数学 严密 性 ， 所 以 它 是 一 种 有 吸引 力 的 参数 估计 方法 。 
例如 ， 根 据 前 面 的 定义 它 是 一 致 的 估计 量 。 而 且 ， WR ôy 是 参数 9 KI MLE, WA g ( Ow) 
是 函数 8(9) 的 MLE， 但 是 当 g 不 是 一 对 一 的 函数 时 应 该 引起 注意 。 另 一 方面 ， 任 何事 物 都 
不 是 十 全 十 美的 一 一 最 大 似 然 估 计量 经 常 是 有 偏差 的 (依赖 于 参数 和 潜在 的 模型 );， 尽 管 对 
于 庞大 的 数据 集 这 个 偏差 可 能 相当 小 ， 经 常 按 O(1/n) 缩 小 。 

对 于 简单 的 问题 〈 这 里 “简单 ”是 指 问题 的 数学 结构 ， 而 不 是 数据 点 的 数量 ， 数 据点 可 
以 非常 多 )， 可 以 使 用 求 导 运算 求解 MLE。 在 实践 中 ， 通 常 是 用 最 大 化 对 数 似 然 16 ) 的 方法 
(就 像 上 面 的 二 项 分 布 和 正 态 分 布 的 例子 )， 因 为 这 可 以 用 求 和 取代 定义 中 难以 处 理 的 乘积 
形式 ， 这样 的 处 理 与 直接 最 大 化 L(0 ) 的 结果 是 一 样 的 ， 因 为 对 数 是 单调 的 函数 。 当 然 ， 我 
们 经 常 对 一 个 以 上 参数 的 模型 感 兴趣 〈 像 神经 网 络 这 样 的 模型 (第 11 章 ) 具有 成 百 上 干 的 
参数 )。 似 然 的 一 元 定义 可 以 直接 推广 到 多 元 的 情况 ， 但 这 时 似 然 就 是 d FERNS ABR 
(也 就 是 定义 在 d 维 参数 空间 中 的 一 个 标量 值 函数 )。 因 为 d 可 能 很 大 ， 所 以 如 果 不 存在 闭 
合 形式 的 解 《closed-form solution)， 那 么 要 发 现 这 个 d 维 函 数 的 最 大 值 可 能 是 有 很 大 难度 的 。 
我 们 将 在 第 8 章 详 细 讨 论 这 种 关于 优化 的 话题 ， 在 那里 我 们 介绍 了 迭代 搜索 方法 。 多 个 最 大 
值 也 会 使 问题 复杂 化 《〈 正 因为 此 ， 很 多 情况 下 必须 使 用 随机 的 最 优化 方法 )， 最 优 值 出 现在 
参数 空间 边界 的 情况 也 会 导致 困难 。 


例 4.7 简单 线性 回归 在 数据 挖 气 中 应 用 非常 广泛 。 我 们 在 第 1 章 中 曾经 简单 
提 到 过 ， 而 且 在 第 11 章 中 会 再 次 详细 地 讨论 。 在 最 简单 的 线性 回归 形式 中 ， 它 联 
系 两 个 变量 ，X， 预 报 (predictor) 变量 或 者 叫 解 释 (explanatory) XE; Y, MM 
(response) 变量 。 它 们 的 关系 被 假定 为 具有 这 样 的 形式 : 了 = a + bX + e， 其 中 a 
和 上 4 为 参数 ，e 是 一 个 随机 变量 ， 假 定 e 服 从 均值 为 0 方差 为 ?的 正 态 分 布 ， 而且 
我 们 可 以 将 其 写 为 e=Y 了 -(a+b 和 MD)。 数 据 是 由 一 系列 有 序 偶 组 成 的 ，BP D = {(x(1)， 





KUED F0 FRE 75 


yD, es (x(n), y(n))}, ATAR PEE RE EE BE BIKA FO), > 
y(n) xd) os x(n), a: b) 我 们 的 兴趣 不 是 为 x 的 分 布 建 模 ， 而 是 要 对 f(y lo 
模 。 

s 于 是 ， 这 个 模型 的 似 然 (或 者 更 确切 地 讲 是 条 件 似 然 ) 函数 可 被 写 为 : 





L(a,biD)= Il -E exp(-0.5(y(i) — (a +bx()/ 0) ) 


i=l 
= 5 lo" >» (yi) —(a + bx)” 
i=l 
为 了 求解 a 和 上 的 最 大 似 然 估计 量 ， 我 们 可 以 取 对 数 并 抛弃 不 包含 a 和 4b 中 任 
一 个 的 项 。 这 得 到 : 


YO = (at bx)? 


于 是 ， 我 们 可 以 通过 最 小 化 预测 值 a + bx(i) 和 观察 值 y(i) 的 差异 平方 和 来 估计 
出 a 和 b。 这 样 最 小 化 平方 和 的 过 程 在 数据 挖 气 中 是 很 常见 的 ， 而 且 被 称 为 最 小 平 
方法 (least squares method )。 平 方 和 标准 具有 重要 的 历史 地 位 ， 它 的 根源 可 以 追溯 
到 高 斯 和 更 早 以 前 。 起 初 选取 平方 和 看 起 来 好 像 是 任意 的 〔 为 什么 不 选择 其 他 呢 ? 
比如 绝对 值 的 和 )， 但 从 上 式 可 以 看 到 选择 最 小 平方 是 选择 正 态 分 布 后 为 了 表示 模 
型 的 误差 项 而 导致 的 自然 结果 。 


直到 现在 我 们 一 直 讨 论 的 是 点 估计 (point estimates)， 为 问题 中 的 参数 估计 出 单一 的 数字 。 
从 某 种 意义 上 来 说 ， 点 估计 是 “最 佳 的 ”估计 ， 但 是 点 估计 不 能 传达 与 之 关联 的 任何 不 确定 
性 一 一 或 许 存在 大 量 的 几乎 等 价 的 好 的 估计 ， 或 许 这 个 估计 只 是 目前 最 好 的 。 区 间 估 计 提 供 
了 这 样 的 信息 ， 它 不 再 使 用 单一 的 数字 ， 而 是 给 出 一 个 具有 确定 置信 和 度 的 区 间 ， 这 个 区 间 含 
有 未 知 的 参数 值 。 这 样 的 区 间 被 称 为 置信 区 间 (confidence interval)， 这 个 区 间 的 上 下 边界 被 
称 为 置信 边界 (confidence limits)。 置 信 区 间 的 解释 是 相当 微妙 的 。 这 里 ， 既 然 我 们 假定 2 是 
未 知 的 ， 但 我 们 已 确定 它 的 估计 值 ， 那 么 说 8 具有 一 定 的 概率 位 于 一 个 给 定 的 区 间 是 没有 意 
义 的 ， 因 为 6 要 么 在 这 个 区 间 中 ， 要 么 不 在 。 然 而 ， 说 通过 给 定 过 程 计算 的 区 间 有 具有 一 定 的 
概率 包含 9 是 有 意义 的 ， 因 为 毕竟 区 间 是 从 样本 计算 来 的 ， 因 此 是 一 个 随机 变量 。 


例 4.8 为 了 使 解释 更 加 简单 ， 下 面 的 例子 是 特意 编制 的 。 假 定数 据 是 由 来 自 
正 态 分 布 的 100 个 独立 观测 组 成 的 ， 正 态 分 布 的 均值 4 未知， 方差 吕 已 知 。 现 在 我 
们 要 求 出 1 的 置信 度 为 95% 的 置信 区 间 。 也 就 是 说 ， 给 定数 据 x1), > xn), A 
们 要 求 出 一 个 上 限 u(x) 和 一 个 下 限 U(x), 4% Pue o, u= 0.95. 

这 种 情况 下 样本 均值 苞 的 分 布 服从 均值 为 L， 方 差 为 0 W100 的 正 态 分 布 ， 所 以 
标准 差 为 0110。 从 正 态 分 布 的 属性 ( 参见 附录 ) 可知, 95% 的 概率 位 于 距离 均值 1.96 
个 标准 差 的 范围 内 。 所 以 ， 

P(u-1.960/10 <X <p+l.960/10) = 0.95 

上 式 可 以 写 为 : 

P(x-1.960/10 <p x +1.960/10) = 0.95 





A 


FH, x)=¥-1.960/10 和 u(x)=X + 1.960/10 定义 了 一 个 95% 的 置信 区 间 。 


大 多 时 候 ， 置 信 区 间 是 基于 这 样 的 假定 : 样本 的 统计 量 大体 符 合 正 态 分 布 。 这 一 点 是 经 
常会 被 满足 的 ， 中心 极限 定理 (central limit theorem) 告诉 我 们 很 多 统计 量 可 以 用 一 个 正 态 
分 布 来 很 好 的 近似 ， 特 别 是 当 样 本 容量 很 大 时 。 使 用 这 种 近似 ， 我 们 就 得 到 了 一 个 区 间 ， 对 
于 给 定 的 未 知 参数 9 的 值 ， 统 计量 位 于 这 个 区 间 的 概率 是 已 知 的 ， 然 后 再 反 过 来 求 未 知 参 数 
的 人 区间 。 为 了 应 用 这 种 方法 ， 我 们 需要 估计 估计 量 6 的 标准 差 。 导 出 这 个 估计 的 一 种 方法 是 
bootstrap 方法 。 





例 4.9 在 过 去 的 20 年 中 人 们 已 经 开发 出 了 很 多 种 bootstrap 方法 ， 使 这 种 方 
法 得 到 逐步 完善 。 这 种 方法 的 基本 思路 如 下 : 数据 最 初 来 自 分 布 F(X)， 我 们 需要 
对 这 个 分 布 做 出 某 种 推论 。 然 而 ， 我 们 仅 有 数据 的 一 个 样本 ， 我 们 用 Ê (表示 这 
个 样本 ,现在 我 们 要 做 的 是 从 (0 中 抽取 一 个 子 样本 F O, datde f 
作 是 真实 的 分 布 。 我 们 可 以 重复 这 个 过 程 很 多 次 ， 为 每 一 个 这 样 的 子 样本 计算 出 统 
计量 。 这 个 过 程 为 我 们 提供 了 根据 从 户 (加 中 抽取 的 样本 计算 出 的 统计 量 的 采样 属 
性 信息 ， 我 们 希望 这 些 信息 与 从 F() 中 抽取 的 样本 计算 出 的 统计 量 的 采样 属性 信 
息 是 相似 的 。 

为 了 说 明 这 种 方法 ， 考 虑 一 种 估计 预测 分 类 规则 性 能 的 早期 方法 。 正 如 我 们 前 
面 讨论 的 ， 要 估计 分 类 规则 的 性 能 ， 简 单 地 通过 重新 分 类 用 来 设计 这 些 法 则 的 数据 
是 不 明智 的 一 一 很 可 能 导致 偏向 乐观 的 估计 。 假 定 es 是 通过 简单 的 重组 过 程 得 到 
的 误 分 类 率 估计 ， 在 这 个 过 程 中 使 用 的 数据 是 与 我 们 用 来 估计 分 类 模型 参数 相同 的 
数据 。 我 们 真正 需要 的 估计 量 是 eo “真实 ”的 误 分 类 率 ， 我 们 希望 它 能 适用 于 未 
来 的 对 象 。 这 两 个 估计 的 差 为 (ec-es )。 如 果 我 们 能 够 估计 这 个 差异 ， 那 么 我 们 就 
可 以 调整 el 以 得 到 更 好 的 估计 。 事 实 上 ， 我 们 可 以 通过 下 面 的 方法 来 估计 这 个 差 
Fe. 假定 我 们 把 户 (加 当 作 这 时 的 分 布 并 从 中 抽出 一 个 子 样本 一 一 F(X)。 现在， 就 
把 忆 ( 癌 当 作 真 实 的 分 布 ， 那 么 我 们 根据 子 样本 党 各 中 的 数据 建立 一 个 规则 ， 并 把 
TARAM) ÊO FLW。 这 两 种 情况 规则 性 能 的 差异 就 为 我 们 提供 了 差异 ( ec - 
en ) 的 信息 ， 为 了 降低 由 于 采样 过 程 的 随机 性 所 带 来 的 影响 ， 我 们 重复 这 种 二 次 采 
样 的 过 程 很 多 次 并 取 平 均值 。 最 终 的 结果 是 对 (ec -es) 差异 的 估计 ， 可 把 这 个 差 
异 加 到 e, 值 中 ， 以 得 到 对 真实 误 分 类 率 ec 的 估计 。 


45.3 ” 贝 叶 斯 估计 


在 本 节 之 前 所 描述 的 频率 论 推理 方法 中 ， 总 体 的 参数 是 固定 但 未 知 的， 数据 组 成 了 一 个 
来 自 总 体 的 随机 样本 《〈 因 为 样本 是 以 随机 方式 抽取 的 )。 因 此 本 质 的 变化 性 存在 于 数据 D = 
{x(1)，…，x(m)} 中 。 与 此 相反 ， 贝 叶 斯 统计 把 数据 当 作 是 已 知 的 一 一 毕竟 ， 数 据 是 已 经 被 
观察 到 并 被 记录 下 的 ， 并 且 把 参数 9 看 作 随机 变量 。 因 此 ， 尽 管 频率 论 的 方法 把 参数 9 看 作 
是 固定 但 未 知 的 量 , 但 是 贝 叶 斯 方法 把 9 当 作 有 很 多 可 能 值 的 随机 变量 , 它 服从 一 定 的 分 布 ， 
并 认为 已 观察 到 的 数据 可 以 揭示 这 个 分 布 的 信息 。P(6 ) 反 映 了 我 们 对 参数 8 真实 《未 知 的 ) 
取 值 的 确信 程度 。 如 果 对 于 8 的 某 个 值 p(6 ) 的 曲线 非常 尖锐 ， 那 么 说 明 我 们 非常 确信 我 们 
的 结论 〈 当 然 我 们 可 能 是 完全 错误 的 !)。 如 果 pO ) 的 曲线 是 非常 宽广 平坦 (这 是 更 典型 的 


全 ear 
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情况 )， 那 么 这 表示 我 们 对 6 的 位 置 不 太 确定 。 

昌 然 贝 叶 斯 这 一 术语 在 统计 中 有 相当 精确 的 含义 ， 但 它 有 时 也 被 很 随便 的 用 在 计算 机 科学 和 
模式 识别 等 文献 中 ， 用 来 指数 据 分 析 所 使 用 的 各 种 形式 的 概率 模型 。 在 本 书 中 ， 我 们 采用 更 标准 
的 广 为 流 传 的 统计 学 定义 ， 具 体 将 在 下 面 描述 。 

在 分 析 数 据 之 前 ，6 取 不 同 值 的 概率 分 布 被 称 为 先 验 (prior) 分 布 P(8 )。 这 个 分 布 在 
数据 分 析 时 会 被 修改 ， 以 纳入 实验 数据 中 的 信息 ,修改 后 得 到 后 验 (posterior) 分 布 , p(91D)。 
从 先 验 分 布 修改 为 后 验 分 布 是 通过 贝 叶 斯 定理 来 进行 的 ， 这 个 定理 是 以 托马斯 。 贝 叶 斯 的 名 
字 命 名 〈Thomas Bayes) 的 : 





PLDI0)p(9) PCDIO)P(O) 


(61D)= 
P p(D) | , PDI) PCPA 


(4.9) 





注意 这 个 更 新 过 程 产生 一 个 分 布 ， 而 不 是 9 的 一 个 单一 值 。 然 而 ， 可 以 用 这 个 分 布 得 到 
一 个 单一 的 估计 值 。 例 如 ， 我 们 可 以 取 后 验 分 布 的 均值 ， 或 它 的 最 频 值 (mode)《〈 后 一 种 技 
术 被 称 为 最 大 化 后 验 (maximum a posteriori) 法 ， 或 简称 为 MAP)。 如 果 我 们 以 特定 的 方式 
选取 先 验 分 布 p(0 ) 例如， 在 某 个 范围 里 p(8 ) 是 均匀 的 )， 那 么 MAP 和 0 的 最 大 似 然 估计 
可 能 很 好 吻合 〈 这 是 因为 这 个 先 验 分 布 是 “ 平 的 ” 所 以 不 会 优先 任何 一 个 6 值 )。 从 这 个 意 
义 上 讲 ， 可 以 把 最 大 似 然 估计 看 作 是 MAP 过 程 的 一 个 特例 ， 前 者 是 贝 叶 斯 估计 的 一 种 特定 
形式 (“点 估计 ”)。 

对 于 一 个 给 定 的 数据 集 D 和 一 个 特定 的 模型 ， 公 式 〈4.9) 的 分 母 是 一 个 常数 ， 所 以 我 
们 还 可 以 把 表达 式 写 为 另 一 种 形式 : 


Pp(OID)< p(D1@)p@) (4.10) 


现在 我 们 看 到 对 于 确定 的 D〈 也 就 是 这 个 分 布 是 以 已 经 观察 到 的 数据 D 为 条 件 的 )，0 
的 后 验 分 布 与 先 验 分 布 p(O ) 和 似 然 p(D 1 6 ) 的 乘积 成 正比 。 如 果 在 收集 数据 前 我 们 对 参数 的 
可 能 值 仅 有 非常 小 的 把 握 ， 那 么 我 们 希望 选择 一 个 概率 散布 很 广 〈 例 如 ， 具 有 很 大 方差 的 正 
态 分 布 ) 的 先 验 分 布 。 在 任何 情况 下 ， 观 察 到 的 数据 集合 越 大 ， 似 然 对 后 验 分 布 的 支配 性 越 
大 ， 同 时 先 验 分 布 形状 的 重要 性 也 就 越 小 。 


例 4.10 重新 考虑 讨论 购买 牛奶 客户 比例 的 例 44， 在 这 个 例子 中 我 们 考虑 了 
一 个 二 进 制 的 单一 变量 X， 并 希望 估计 6 = p(X = 1)。 对 于 变化 范围 介 于 0 和 1 之 间 
的 参数 9， 一 种 广 为 应 用 的 先 验 分 布 是 Beta 分 布 ， 具 体 定义 如 下 : 
p(0) ~ 0° 1(1-0)87 (4.11) 


HP, a>0, B>O 是 这 个 模型 的 两 个 参数 。 容 易 得 出 E[0]= po 9 的 最 频 


a-l 5# A var(6)= ap 于是， 如果 我 们 假定 a 和 都 

a+B-2 (a+ B)* (a+ B+) 

取 大 于 1 的 值 ， 那 么 我 们 可 以 看 到 cr 和 有 的 相对 大 小 控制 着 均值 和 最 频 值 的 位 置 : 

如 果 w = B， 那 么 均值 和 最 频 值 都 位 于 0。 如果 C< B, 那么 最 频 值 小 于 0.5， 等 等 。 
类 似 地 ， 方 差 是 与 atB 成 反比 的 : oF B 的 值 控制 了 先 验 分 布 p(9 ) 的 “狭窄 程 

度 ”。 如 果 0 和 是 相当 大 的 ， 那 么 先 验 分 布 是 最 频 值 附近 的 相当 狭窄 的 尖峰 .以 这 





值 为 








© 


78 BAË 


种 方式 ， 我 们 可 以 选取 和 有 来 反映 我 们 关于 参数 6 的 验 前 信心 (prior belief )。 
回忆 例 4.4， 在 二 项 分 布下 ， 关 于 9 HAR RAT AE A: 


L(0! D)=0" 0-0)" (4.12) 


其 中 + 是 总 共 n 个 观察 值 中 取 值 为 1 的 数量 ， 我 们 可 以 看 到 ，Beta 似 然 和 二 项 似 然 
在 形式 上 是 很 相似 的 : Beta 似 然 看 起 来 像 具有 or1 个 验 前 成 功 值 和 厅 1 个 验 前 失败 
值 的 二 项 似 然 。 因 此 实际 上 ， 我 们 可 以 把 w+ 有 -2 看 作 先 验 分 布 的 等 价 样本 大 小 ， 
换 句 话 来 说 ， 这 就 好 像 我 们 的 Beta 先 验 分 布 是 基于 这 些 验 前 观测 值 的 。 
把 似 然 函 数 和 先 验 分 布 结合 起 来 ， 我 们 得 到 : 
P(O1D)< p(D10)p(0) 
=0’(1-0)""0° q-0)f7 (4.13) 
=@ r+a-l (1 - gy tb 


这 正好 是 另 一 个 Beta 分 布 的 形式 ， 也 就 是 说 ，0 的 后 验 分 布 p(0 1 AAA 
一 个 参数 为 r+ ofe n- r+ 的 Beta 分布。 


于 是 ， 这 个 后 验 分 布 P91) 的 均值 为 = 请 这 是 非常 直观 的 。 如果 w= 有 
n 


= 0， 我 们 得 到 标准 MLE 为 Wn。 和 否则， 我 们 得 到 一 个 修改 的 估计 ， 新 的 估计 不 完 
全 依赖 于 数据 本 身 (+ 和 n)。 例 如， 在 数据 挖掘 实 践 中 ， 普 遍 使 用 启发 式 估计 


LAL 作为 概率 估 计 ， 而 不 用 MLE， 实 际 上 这 相当 于 使 用 一 个 基于 后 验 均值 和 X= 有 


= 1 的 Beta 先 验 分 布 的 点 估计 ， 这 具有 使 估计 避免 0 和 1 极端 值 的 “平滑 ”效果 。 
例如 ， 设 想 我 们 要 估计 超市 中 一 个 特定 商品 被 购买 的 比例 ， 但 我 们 仅 有 r= 0 的 样 
本 D (或 许 有 人 购买 这 种 商品 的 情况 相当 少见 ， 而 且 恰 好 我 们 抽样 那天 没有 人 购 
Z). 这 种 情况 下 ，MLE 为 0， 然 而 后 验 均值 为 一 ， on 很 大 时 ， 这 个 估计 接 
近 0 但 在 这 种 商品 平均 每 天 被 购买 情况 的 模型 中 又 允许 一 个 小 的 (但 不 为 0) 概率 。 
对 于 高 维 的 (也 就 是 p 很 大 ) 数据 集合 ， 我 们 可 能 遇 到 在 我 们 观察 到 的 数据 集 
D 中 不 会 发 生 某 些 事情 。 但 是 通常 不 使 用 MLE 把 这 些 事 件 的 概率 9 估计 为 0 (这 
相当 于 指出 根据 我 们 的 模型 这 个 事件 是 不 可 能 的 ); 而 是 使 用 这 里 描述 的 贝 叶 斯 估 
计 ， 这 样 更 稳妥 ， 对 于 超市 的 例子 ， 先 验 分 布 pO ) 可 以 来 自 同 一 超市 的 历史 记录 ， 
也 可 以 来 自 地 理 上 位 于 同一 地 区 的 多 家 商店 , 这样 便 可 以 使 其 他 有 关 ( 时 间 和 空间 ) 
的 信息 发 挥 作用 了 ， 这 就 是 更 加 通用 的 贝 叶 斯 层次 模型 ( 这 超出 了 本 书 的 范围 ) 


贝 叶 斯 方法 区 别 于 其 他 方法 的 一 个 主要 特征 是 避免 了 所 谓 的 点 估计 例如 参数 的 最 大 似 
然 估 计 )， 喜 欢 保留 问题 中 涉及 的 所 有 不 确定 性 的 全 部 知识 〈 例 如 计算 关于 6 的 完整 后 验 分 
布 )。 

下 面 举 一 个 例子 ， 设 想 使 用 贝 叶 斯 方法 预测 一 个 新 的 数据 点 x(n+1)， 它 不 属于 我 们 的 训 
练 数据 D。 这 里 x 可 能 是 股票 市 场 每 天 关闭 时 的 道琼斯 指数 值 ，n+1 是 将 来 的 某 一 天 。 贝 叶 
斯 方法 不 是 使 用 预测 模型 来 给 出 6 的 一 个 点 估计 〈 像 我 们 在 最 大 似 然 或 MAP 框架 中 那样 )， 
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而 是 对 6 的 所 有 可 能 值 进行 加 权 平均 ， 权 就 是 每 个 可 能 值 的 后 验 分 布 概率 pOl D): 


p(x(n +1) 1D) = f p(x(n+1)9 | D)d0 
(4.14) 
= f p(x(n+1)10)p(@ | D)d@ 


因为 根据 定义 ， 对 于 给 定 的 9，x(n+1) 对 与 训练 数据 D 是 条 件 独 立 的 。 实 际 上 ， 我 们 可 
以 对 此 作 进 一 步 的 扩展 ， 使 用 一 种 称 为 贝 叶 斯 模型 平均 的 技术 对 不 同 的 模型 进行 平均 。 无 疑 ， 
所 有 这 样 的 平均 过 程 可 能 需要 比 最 大 似 然 法 大 得 多 的 计算 量 。 这 是 为 什么 贝 叶 斯 方法 近年 来 
才 被 用 于 实践 (至 少 已 应 用 于 小 规模 的 数据 集 〉 的 主要 原因 。 对 于 大 规模 的 问题 或 高 维 数 据 ， 
全 面 的 中叶 斯 分 析 方法 可 能 面临 相当 大 的 计算 负担 。 

注意 公式 4.9 和 4.10 的 结构 允许 我 们 可 以 不 断 的 更 新 分 布 。 例 如 ， 在 我 们 使 用 数据 D, 
建立 模型 后 ， 我 们 可 以 使 用 另外 的 数据 D, 更 新 这 个 模型 


P(O|D,, Dx p(D,! @)p(D, | 8 )p(é) . (4.15) 


因为 结果 独立 于 数据 的 顺序 (当然 ， 条件 是 对 于 给 定 的 模型 P，Di 和 D 是 条 件 独立 的 )， 
所 以 对 于 庞大 的 数据 集 ， 这 种 可 以 不 断 更 新 的 特征 是 非常 有 价值 的 。 

公式 4.9 中 的 分 母 ,p(Di= /p(D1Wp(Wdy 被 称 为 D 的 预测 分 布 (predictive distribution), 
代表 了 我 们 对 D 值 的 预测 。 通 过 先 验 分 布 pe) 表示 我 们 对 8 的 不 确定 性 ， 通过 p(D 1 9 ) 表 
示 当 6 已 知 时 我 们 对 D 的 不 确定 性 。 这 个 预测 分 布 会 随 着 观察 到 的 新 数据 变化 ， 因 此 对 模 
型 检查 是 有 价值 的 ;如果 从 预测 分 布 来 看 观察 到 的 数据 仅 有 很 小 的 概率 ， 那 么 这 个 分 布 不 太 
可 能 是 正确 的 。 

例 4.11 假定 我 们 相信 一 个 数据 点 x 来 自 一 个 已 知 方差 a 但 未 知 均值 9 的 正 态 
分 布 ， 也 就 是 x ~ NO, à). RERO 的 先 验 分 布 是 6~ NO. A)» o Oy BH. 
那么 ， 
p(O1x) ~ p(x10)p(0) 


_ 1 


—1 — 
ggo 0 
0 0 


o expl-5,07(1/a +1/@) +0(00 / Og + x/0)) 





这 里 的 数学 推导 看 起 来 相当 繁琐 (对 于 贝 叶 斯 方法 这 是 司空 见 惯 的 )， 但 如 果 
定义 另外 两 个 参数 ， 就 会 简单 很 多 。 设 
a= (+a!) |! 
和 
0=0 (Oyot a) 


再 使 用 一 些 代 数 变换 ， 我 们 得 到 
pO lx) ~ exp- 20? /ai +80, /ai ) ~ exp(-5 (6 -01)* 10) 


既然 这 是 9 的 概率 密度 函数 ， 所 以 它 的 积分 一 定 为 1. AN, 0 的 后 验 分 布 具 
有 以 下 的 形式 : 


一 


p(O1x)= 





TT exp(-5 0 01)? 1a) 
这 是 一 个 正 态 分 布 N(8,，oi)。 于 是 正 态 的 先 验 分 布 已 经 被 更 新 为 一 个 正 态 的 
后 验 分 布 ， 从 而 避免 了 复杂 的 数学 计算 。 给 定 关于 均值 的 正 态 先 验 分 布 和 来 自 这 个 
正 态 分 布 的 数据 ( 即 上 面 所 给 出 的 )， 我 们 可 以 仅仅 通过 计算 要 被 更 新 的 参数 得 到 
后 验 分 布 。 而 且 ， 更 新 参数 并 不 像 乍 看 起 来 那样 复杂 。 
方差 的 倒数 被 称 为 精度 ( precisions )。 在 这 里 更 新 后 的 分 布 精度 为 Voy, 2H 
是 先 验 分 布 和 数据 分 布 的 精度 之 和 。 这 正好 验证 了 “增加 数据 会 降低 方差 ， 提 高 精 
度 ” 的 结论 。 同 样 地 ， 更 新 后 的 均值 0 就 是 先 验 均值 和 数据 x 的 加 权 求 和 ， 权 为 
这 两 个 值 的 精度 。 
对 上 面 所 描述 的 情况 ， 当 有 nn 个 数据 点 时 ， 后 验 分 布 也 是 正 态 的 ， 不 过 被 更 新 
的 参数 值 为 : 
œ= (1l/ootn/o) “| 
和 
0, = 0, (OOX n/a) 


选择 先 验 分 布 在 贝 叶 斯 分 析 中 起 着 重要 的 作用 〈 就 像 前 面 所 提 到 的 ， 对 于 小 样本 比 对 大 
样本 更 是 如 此 )。 先 验 分 布 代表 了 我 们 对 参数 取 值 的 初始 看 法 。 我 们 对 参数 取 某 些 值 的 信心 
越 大 ， 先 验 分 布 就 与 这 些 值 越 紧密 。 我 们 的 信心 越 小 ， 先 验 分 布 的 分 散 程度 也 就 越 大 。 在 正 
态 均 值 的 例子 中 ， 如 果 对 真实 值 一 无 所 知 ， 我 们 可 能 会 使 用 对 每 一 个 可 能 值 都 给 出 相等 概率 
的 先 验 分 布 ， 也 就 是 相当 平坦 的 或 具有 无 限 大 方差 的 先 验 分 布 。 这 不 会 得 到 任何 正常 的 
(proper) 密度 函数 〈 密 度 函 数 必须 具有 某 个 非 0 值 并 且 必 须 积分 为 1)。 尽 管 如 此 ， 采 用 相 
对 整个 参数 空间 的 不 正常 〈improper) 均匀 先 验 分 布 有 时 是 有 价值 的 。 我 们 可 以 把 这 种 先 验 
分 布 看 作 在 参数 可 能 发 生 的 所 有 区 域 都 是 基本 平坦 的 。 即 便 如 此 ， 仍 然 存 在 对 特定 参数 均匀 
的 先 验 分 布 对 该 参数 的 非 线 性 变换 不 均匀 的 困难 。 

另 一 个 问题 是 ， 先 验 分 布 体现 了 个 人 对 不 同 参数 可 能 值 的 验 前 信心 因此 会 因 人 而 
异 ， 这 既 可 以 被 看 作 贝 叶 斯 推理 的 不 足 也 可 以 被 看 作 是 这 种 分 析 的 强大 之 处 。 你 的 先 验 分 布 
和 我 的 不 同 是 完全 可 能 的 ， 所 以 对 于 同一 个 分 析 我 们 可 能 会 得 到 不 同 的 结果 。 在 某 种 情况 下 
这 是 好 的 ， 但 在 有 些 情况 下 并 非 如 此 。 克 服 这 一 问题 的 一 种 方法 是 使 用 所 谓 的 参考 先 验 ， 一 
种 与 惯例 一 致 的 先 验 。 一 种 普 骨 的 参考 先 验 是 Jeffrey 先 验 。 为 了 定义 这 个 先 验 我 们 需要 首 
先 定义 费 歇 尔 信 息 〈Fisher information ): 





(4.16) 
30? 

以 上 是 标量 的 参数 9 HARRES ERE, HAMAR RIRA A 
质 上 这 个 尺度 度量 了 似 然 函 数 的 曲率 和 平坦 程度 。 似 然 函 数 越 平坦 ， 它 所 能 提供 的 参数 信息 
也 就 越 少 。Jeffrey 先 验 是 这 样 定义 的 : 


p(0) ~ VI(O1xX) (4.17) 


2 
ri | 
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这 是 一 个 很 方便 的 参考 先 验 ， 因 为 如 果 % = 9 (6 ) 是 9 的 某 个 函数 ， 那 么 就 得 到 一 个 与 
VI(91x) 成 正比 的 先 验 。 这 意味 着 一 个 一 致 的 先 验 不 受 参 数 变换 的 影响 。 

前 面 所 举 的 例子 中 的 分 布 是 以 Beta 或 正 态 先 验 开 始 的 ， 也 是 以 Beta 或 正 态 后 验 结束 的 。 
Apik (conjugate family) 分 布 通常 满足 这 一 特征 ， 先 验 分 布 和 后 验 分 布 属 于 同一 类 分 布 。 
使 用 共 思 分 布 的 优点 是 避免 了 复杂 的 更 新 过 程 ， 只 要 简单 地 更 新 参数 。 

我 们 已 经 说 明了 从 后 验 分 布 可 以 很 容易 的 直接 得 到 单一 的 点 估计 。 得 到 区 间 估 计 也 是 很 
简单 的 一 一 对 后 验 分 布 在 一 个 区 域 积分 就 给 出 了 参数 位 于 这 一 区 域 的 估计 概率 。 当 只 包含 单 
一 的 参数 而 且 估计 范围 是 一 个 区 间 时 ， 得 到 的 结果 是 可 信 区 间 (credibility interval)。 最 短 的 
可 能 可 信 区 间 是 包含 一 个 给 定 概率 〈 例 如 90% ) 从 而 使 后 验 密度 在 这 个 区 间 最 高 的 区 间 。 
如 果 一 个 人 准备 接受 基本 的 贝 叶 斯 思想 一 一 参数 是 一 个 随机 变量 ， 那 么 这 种 区 间 的 解释 比 频 
率 论 的 置信 区 间 的 解释 更 容易 理解 。 

当然 仅 包含 一 个 参数 的 模型 是 少见 的 。 通 常 模型 都 包含 多 个 或 很 多 参数 。 这 种 情况 下 我 
们 可 以 同时 计算 所 有 参数 的 联合 后 验 分 布 , 或 者 为 每 个 (或 一 部 分 ) 参数 单独 计算 后 验 分 布 。 
我 们 也 可 以 研究 给 定 其 他 参数 值 后 某 个 参数 的 条 件 分 布 。 直 到 最 近 ， 员 叶 斯 统计 仅 是 一 个 推 
理 和 归纳 方面 令 人 感 兴趣 的 哲学 观点 ， 没 有 什么 实践 价值 ， 从 复杂 的 联合 分 布 得 到 参数 个 体 
的 边际 分 布 所 需 的 积分 运算 过 于 困难 ( 仅 在 很 少 的 情况 下 可 以 发 现 分 解 的 解决 办 法 ， 而 且 经 
常 需要 做 出 不 希望 的 假定 )。 然 而 ， 在 最 近 的 10 年 左右 中 这 个 领域 已 经 经 历 了 很 多 变革 。 随 
机 的 估计 方法 一 一 以 从 被 估计 的 分 布 抽出 随机 样本 为 基础 一 一 使 我 们 可 以 估计 和 研究 参数 的 
分 布 特征 。 这 些 方法 被 称 为 马尔 可 夫 链 蒙 特 卡 罗 (Markov chain Monte Carlo, MCMC) 方法 ， 
我 们 将 在 第 8 章 中 对 此 作 简 要 讨论 。 

有 必要 强调 贝 叶 斯 统计 的 主要 特色 在 于 它 对 待 不 确定 性 的 方式 。 贝 叶 斯 方法 的 哲学 是 
揭示 出 任何 数据 分 析 中 的 所 有 不 确定 性 ， 包 括 被 估计 的 参数 以 及 模型 中 的 任何 不 确定 性 。 
在 最 大 似 然 方法 中 ， 参 数 的 点 估计 是 考虑 的 首要 目标 ， 但 贝 叶 斯 分 析 者 会 报告 一 个 关于 参 
数 的 完整 后 验 分 布 ， 以 及 一 个 关于 模型 结构 的 后 验 。 贝 叶 斯 预测 是 对 参数 值 和 模型 结构 的 
加 权 平 均 得 到 的 《其 中 权 与 参数 或 模型 的 似 然 〈 对 于 给 定数 据 ) ROR RIEL). MA 
上 ， 与 其 他 〈 广 为 应 用 的 ) 以 单一 模型 为 条 件 对 参数 进行 点 估计 的 方法 相 比 ， 这 种 加 权 平 
均 可 以 提供 更 精确 的 预测 。 然 而 在 实践 中 ， 贝 时 斯 方法 需要 加 权 平 均 做 出 估计 ， 这 对 高 维 
问题 是 很 困难 的 。 此 外 ， 如 果 描 述 是 首要 目标， 那么 参数 或 模型 的 加 权 平 均 也 不 太 可 能 产 
生 易 于 解释 的 结果 。 











4.6 ”假设 检验 


尽管 数据 挖 据 主要 致力 于 寻找 数据 中 的 未 知 特征 (这 不 同 于 检验 我 们 见 到 数据 前 就 形成 
的 假设 )， 但 是 实践 中 我 们 确实 经 常 也 需要 检验 特定 的 假设 〈 例 如 ， 数 据 挖掘 算法 产生 的 我 
们 想 进 一 步 探索 的 令 人 感 兴趣 的 假设 )。 

很 多 情况 下 ， 我 们 需要 分 析 数 据 是 否 支持 关于 参数 值 的 某 个 设想 。 例 如 ， 我 们 可 能 要 知 
道 一 种 新 的 治疗 是 否 比 标准 的 治疗 方法 有 更 好 的 疗效 ， 或 者 两 个 变量 是 否 在 总 体 中 有 关 。 
为 很 多 时 候 ， 我 们 不 能 根据 总 体 来 衡量 这 些 假 设 ， 所 以 我 们 必须 基于 样本 得 出 结论 。 探 索 这 
些 假设 的 统计 工具 被 称 为 假设 检验 (hypothesis test). 


EES SE TA Se eee Te ees 


4.6.1 古典 假设 检验 


基本 的 假设 检验 诛 理 如 下 。 我 们 从 定义 两 个 互补 的 假设 开始 : 零 假 设 (null hypothesis) 
和 备 选 假设 (alternative hypothesis )。 零 假设 经 常 是 某 一 点 的 值 〈 例 如 ， 对 讨论 的 问题 影响 
为 0 的 那个 点 )， 而 备 选 假设 就 是 零 假 设 的 补 。 例 如 假定 我 们 要 得 到 关于 参数 9 的 结论 。 零 
Bit, AHER, MEEO = 外 ， 于 是 备 选 假设 可 能 就 是 8# 6。 使 用 观察 到 的 数据 ， 我 们 可 
以 计算 一 个 统计 量 〈 统 计量 的 形式 最 好 由 被 检验 假设 的 属性 决定 ;我 们 将 在 下 面 给 出 示例 )。 
统计 量 会 因 样 本 的 不 同 而 不 同一 一 是 一 个 随机 变量 。 如 果 我 们 假定 零 假设 是 正确 的 ， 那 么 我 
们 可 以 求 出 选 出 统计 量 的 期 望 分 布 ， 并 且 统 计量 的 观察 值 是 来 自 这 个 分 布 的 一 点 。 如 果 观 察 
值 位 于 分 布 的 很 远 的 末端 ， 那 么 我 们 将 不 得 不 做 出 结论 : 要 么 是 发 生 了 一 个 低 可 能 事件 ， 要 
么 零 假 设 事 实 上 并 不 正确 。 观 察 到 的 值 越 是 靠近 末端 ， 我 们 对 零 假 设 的 信心 越 小 。 

我 们 可 以 量化 这 个 过 程 。 看 一 下 统计 量 分 布 (这 个 分 布 基 于 零 假设 为 真 的 假定 ) 的 末端 ， 
我 们 可 以 找到 发 生 概率 加 在 一 起 为 0.05 的 那些 潜在 值 。 这 些 是 统计 量 的 极端 extreme) 
值 一 一 假定 零 假 设 是 正确 的 ， 这 些 值 与 大 多 数值 偏离 的 足够 远 。 如 果 这 个 观察 到 的 极端 值 确 
实 位 于 这 个 末端 区 域 ， 我 们 就 会 “在 5% 的 显著 水 平 上 ”拒绝 这 个 零 假 设 : 要 是 零 假设 是 正 
确 的 ， 那 么 就 仅 有 5% 的 可 能 我 们 看 到 发 生 在 这 个 区 域 的 结果 。 因 此 ， 这 个 区 域 被 称 为 拒绝 
区 (rejection region)〉 或 临界 区 (critical region)。 当 然 ， 我 们 可 能 不 仅仅 对 零 假设 在 一 个 方 
向 的 偏离 感 兴趣 。 也 就 是 说 ， 我 们 可 能 对 分 布 的 低 端 末尾 以 及 高 端 末尾 都 感 兴趣 。 这 种 情况 
下 ， 我 们 或 许 把 拒绝 域 定义 为 概率 分 布 最 低 端 2.5% 概 率 对 应 的 检验 统计 量 的 值 和 概率 分 布 
的 最 高 端 2.5% 概 率 对 应 的 检验 统计 量 的 值 的 联合 。 这 就 是 双边 检验 (two-tailed test), Sit 
相对 前 面 描述 的 叫 单 边 检验 (one-tailed test)。 拒 绝 域 的 大 小 ， 被 称 为 检验 的 显著 性 水 平 
(significance level)， 可 以 任意 选取 。 和 常见 的 值 为 1%、5% 和 10% 。 

我 们 可 以 按照 不 同 检验 过 程 的 能 力 (power) 比较 它们 。 检 验 的 能 力 就 是 它 正确 拒绝 错 
误 的 零 假 设 的 概率 。 为 了 评估 检验 的 能 力 ， 我 们 需要 指定 一 个 备 选 假设 ， 目 的 是 计算 检验 的 
统计 量 在 备 选 假设 正确 的 情况 下 落 入 拒绝 域 的 概率 。 

一 个 重要 的 基本 问题 是 如 何 找到 适合 特定 问题 的 好 的 检验 统计 量 。 一 种 策略 是 使 用 似 然 
# (likelihood ratio)。 用 来 检验 假设 Hy: 6= 多 和 备 选 假设 H: 0 多 的 似 然 率 被 定义 为 : 


LID) 
` supy L(Y I D) 








(4.18) 


EP, D = {x(])，…，x(n)}。 也 就 是 说 ， 当 0 = 6 时 似 然 率 达 到 当 6 不 被 约束 时 似 然 的 最 大 
值 。 显 然 ， 当 和 很 小 时 应 该 拒绝 零 假设 。 这 个 过 程 可 以 被 简单 地 推广 到 零 假 设 不 是 单 点 假设 
而 是 包括 6 的 一 系列 可 能 值 的 情况 。 


例 4.12 假定 我 们 有 一 n 个 点 的 样本 ， 独 立 采样 于 一 个 单位 方差 均值 未 知 的 
正 态 分 布 ， 我 们 希望 检验 均值 为 0 的 假设 。 在 这 个 ( 零 假 设 ) 假定 下 似 然 为 : 


1 
L@ | x(),"**,x(n)) -[] oi =T] poere(-F 00-0" | 


正 态 分 布 的 最 大 似 然 估 计量 是 样本 均值 ， 所 以 无 约束 的 最 大 似 然 是 : 


-一 -一 Loess 
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Lent seh.-.209) =F] posto) =F] mere 5000-2 ] 
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以 上 二 式 的 比例 可 以 被 简化 为 
A = exp(—n(X - 0)? / 2) 
所 以 ， 对 于 一 个 适当 选取 的 c 值 ， 我 们 的 拒绝 域 为 11 1 和 S c}。 这 个 表达 式 


可 以 写 为 : 
x2 2 ine 
Von 


其 中 元 = 一 a) HAAR. Hb, HATE YR AR, 


某 些 类 型 的 检验 是 被 频繁 使 用 的 。 它 们 包括 不 同 均值 的 检验 ， 比 较 方差 的 检验 ， 和 比较 
一 个 观察 分 布 和 一 个 假设 分 布 的 检验 〈 所 谓 的 拟 合 程度 (goodness-of-fit) 检验 )。 我 们 将 在 
下 面 描述 常见 的 比较 两 个 独立 总 体 均值 闻 差 异 的 1 检验 。 其 他 检验 的 描述 可 以 参阅 介绍 统计 
量 的 书籍 。 

例 4.13 设 x(1)，…，x() 为 从 一 个 正 态 分 布 NUL，a3 随 机 抽出 的 n 个 观察 

值 ， 并 设 y(1)，…，y(mm) 为 从 一 个 正 态 分 布 No ”) 随 机 抽出 的 m 个 观察 值 。 假 

定 我 们 希望 检验 这 两 个 分 布 均值 相等 的 假设 ，Ho : 内 ;= 4,。 这 种 情况 下 似 然 率 统 

计量 被 简化 为 : 


x 





t = 126 
Js? 0/n+1/m) 
其 中 ， 
s= s? n-l s? m-1 
n+m—-2 “n+m-—2 
其 中 ， 


s2=S(s-¥) Mn) 
是 x 样本 的 估计 方差 ，s2 是 对 于 y 的 同样 系数 。 于 是 s 就 是 两 个 样本 的 样 
本 方差 的 加 权 求 和 ， 检 验 的 统计 量 就 是 两 个 样本 均值 间 的 差异 ， 再 除 以 估计 的 差异 
标准 差 。 在 零 假 设 下 ，! 服从 自由 度 为 n+ mm-2 的 上 分 布 。 
尽管 这 里 被 比较 的 两 个 总 体 被 假定 为 服从 正 态 分 布 ， 但 是 这 个 检验 对 于 非 正 态 
的 情况 也 具有 相当 好 的 鲁 棒 性 ， 尤 其 是 当 两 个 样本 的 大 小 和 方差 大 体 相等 时 。 这 个 
检验 的 应 用 非常 广泛 。 


Gl 4.14 变量 间 的 关系 经 常 是 数据 挖 握 的 中 心 问题 。 有时， 我 们 可 能 想 要 知 
道 两 个 变量 是 否 根本 无 关 ， 以 便 一 个 变量 值 的 分 布 根本 不 受 另 一 个 变量 取 值 的 影 
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响 。 卡 方 检验 适合 检验 两 个 范畴 型 ( categorical ) 变量 的 独立 性 。 本质 上 ， 这 是 一 
种 拟 合 程度 的 检验 ， 即 在 检验 中 把 数据 与 一 个 独立 零 假 设 模型 相 比 较 。 
BÈ, BAVA DS RE x oy, 工 的 取 值 为 为 ， 相 应 的 概率 为 pa) isl e 

r; yy 的 取 值 为 w， 相 应 的 概率 为 p0)，1 = 1，…，s。 假 定 联合 概率 为 po y) 7# 
么 如 果 x 和 ?了 是 独立 的 ,就 有 p(x; y= ppo). 通过 简单 计算 每 个 观察 值 落 入 ( fall 
at) KE x 的 各 档 值 的 比例 ， 和 落 入 变量 y 的 各 档 值 的 比例 可 以 估计 出 p(X) 和 p) 
的 分 布 。 设 变量 x 取 值 为 x 的 估计 概率 为 nan, 变量 y 取 值 为 yi 的 估计 概率 为 
n(y)n。 在 独立 的 假设 下 ， 把 这 些 数 据 相 来 便 得 到 了 每 个 单元 (cell) 的 估计 概率 ; 

Fx, AMARA FP. pao ye BRA na) n/n’. RRERA n 个 观察 
值 ， 这 就 意味 着 在 零 假 设 下 我 们 可 以 在 第 (i, j) 个 单元 发 现 na) nypin 个 观察 值 。 
为 了 方便 ， 我 们 按 某 种 顺序 为 所 有 单元 从 1 到 1(1 =r 习 编 号 ， 并 设 瓦 表示 期 望 在 
第 kk 个 单元 中 看 到 的 数量 。 我 们 可 以 把 这 一 值 与 在 第 个 单元 中 观察 到 的 实际 数量 


127 (我 们 用 O, 表示) 比较 。 下面， 我 们 需要 以 某 种 方式 汇总 对 所 有 t 个 单元 的 比较 。 
一 种 适合 的 汇总 方法 是 : 
E,-0,)° 
xen 人 一 Co) (4.19) 
k=l,t E, 


这 里 取 平 方 是 为 了 防止 正 负 差 异 相 互 抵消 ， 除 以 已 是 为 了 防止 大 的 单元 支配 
了 这 一 尺度 。 如 果 独 立 的 零 假 设 是 正确 的 ， 那 么 RAG WRA (r1) (5-1) 的 
卡 方 分 布 ， 显 著 性 水 平 要 么 可 以 通过 查 表 得 到 ， 要 么 可 以 直接 计算 得 到 。 

下 面 我 们 以 医疗 数据 为 例 来 加 以 说 明 。 即 根据 进行 手术 的 医院 种 类 (推荐 的 
(referral) 或 非 推 荐 的 (non-referral ) ) 来 对 外 科 手 术 的 结果 (没有 好 转 ， 部 分 好 
转 ， 全 部 好 转 ) 进行 分 类 。 数 据 被 列 在 下 面 ， 我 们 感 兴趣 的 问题 是 手术 结果 是 否 独 
立 于 医院 类 型 (也 就 是 说 ， 对 于 两 种 类 型 的 医院 结果 的 分 布 是 否 相 同 )。 


非 推荐 的 医院 








来 自 推荐 医院 的 患者 总 数 是 (43+ 29+ 10) = 82， 根 本 没有 好 转 的 患者 总 数 是 
(43 + 47) = 90。 全 部 患者 是 367。 于 是 ， 在 独立 的 假定 下 ， 表 格 最 左上 角 单 元 的 
期 望 数 量 是 82 x 90/367 = 20.11. 实际 观察 的 结果 是 43， 因 此 这 个 单元 对 及 的 贡献 
是 (20.11-43 ) 220.11。 对 所 有 六 个 单元 进行 类 似 的 计算 ， 并 把 结果 相 加 得 到 X? = 
49.8。 把 这 个 结果 和 自由 度 为 (3-1)(2-1) =2 的 卡 方 分 布 相 比较 ， 显 示 了 非常 
高 的 显著 水 平 ， 这 表明 外 科 手 术 的 结果 确实 依赖 于 医院 的 类 型 。 


上 面 列 举 的 假设 检验 策略 是 以 从 某 个 分 布 抽取 随机 样本 这 一 假定 为 基础 的 ， 而 且 检验 的 
目标 是 对 分 布 的 参数 做 出 一 个 概率 陈述 。 最 终 的 目标 是 根据 样本 做 出 对 隐 含 总 体 潜在 值 的 推 

理 。 出 于 明显 的 理由 ， 这 种 策略 有 时 被 描述 为 采样 模式 〈sampling paradigm)。 有 时 需要 另 

128| ”一 种 策略 ， 特 别 是 当 我 们 不 确信 样本 是 通过 概率 采样 (probability sampling) (参见 第 2 Æ) 
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得 到 的 ， 因 此 不 可 能 对 隐 含 总 体 进 行 推理 的 时 候 。 这 种 情况 下 ， 我 们 有 时 还 是 可 以 对 零 假设 
下 的 某 种 效果 (effect〉 做 出 概率 陈述 。 例 如 考虑 对 一 种 治疗 和 一 个 控制 组 的 比较 。 我 们 可 
以 把 零 假设 取 为 治疗 没有 效果 ， 也 就 是 接受 了 治疗 的 人 和 没 接 受过 的 人 的 得 分 (scores) 分 
布 是 相同 的 。 如 果 我 们 取 一 个 人 群 的 样本 (可 能 不 是 随机 抽取 的 )， 并 随机 地 分 配 到 治疗 和 
控制 组 中 ， 如 果 零 假设 是 正确 的 ， 那 么 两 组 间 的 平均 得 分 差异 将 是 很 小 的 。 实 际 上 ， 在 相当 
广泛 〈general) 的 假定 下 ， 如 果 没 有 治疗 效果 ， 或 者 差异 仅 是 由 于 随机 分 配 的 不 平衡 而 导致 
的 结果 ， 那 么 求 出 两 个 组 的 样本 均值 间 差 异 的 分 布 是 不 困难 的 。 然 后 我 们 就 可 以 探索 差异 与 
实际 观察 到 的 一 样 大 或 更 大 是 如 何 的 不 可 能 。 基 于 这 一 原则 的 检验 被 称 为 随机 检验 
(randomization tests) 或 置换 检验 (permutation tests)。 注 意 ， 以 上 过 程 并 没有 做 出 任何 从 样 
本 到 整个 总 体 的 统计 推理 ， 但 它 确实 允许 我 们 对 治疗 效果 做 出 条 件 概 率 结 论 ， 条 件 就 是 观察 
到 的 数据 。 

很 多 统计 检验 都 对 从 中 抽取 样本 的 总 体 的 分 布 做 出 了 假定 。 例 如 ， 上 面 演示 的 1 检验 例 
子 中 的 两 个 样本 被 假定 为 服从 正 态 分 布 。 然 而 ， 很 多 时 候 做 出 这 样 的 假定 是 不 方便 的 。 或 许 
我 们 对 假定 没有 什么 理由 ， 或 者 因为 我 们 知道 数据 实际 上 不 服从 标准 检验 所 需要 的 形式 。 这 
种 情况 下 ， 我 们 可 以 采用 独立 于 分 布 〈distribution-free) 的 检验 。 基 于 排名 Crank) 的 检验 
属于 这 一 类 。 在 这 里 ， 基 本 数据 被 蔡 换 为 它们 的 对 应 位 置 的 数字 标签 。 例 如 ， 为 了 探索 两 个 
样本 是 否 来 自 同一 个 分 布 ， 我 们 可 以 把 他 们 的 实际 数值 蔡 换 为 它们 的 排名 。 如 果 它 们 确实 来 
自 同 一 分 布 ， 我 们 就 可 以 期 望 这 两 个 样本 成 员 的 排名 是 均匀 混合 的 。 而 且 ， 如 果 一 个 分 布 比 
另 一 个 具有 更 大 的 均值 ， 那 么 我 们 可 以 期 望 这 个 样本 趋向 于 有 较 高 的 排名 ， 而 另 一 个 具有 较 
低 的 排名 。 如 果 两 个 分 布 具 有 同样 的 均值 但 一 个 的 方差 比 另 一 个 的 大 ， 那 么 我 们 可 以 期 望 一 
个 样本 倾向 于 高 的 和 低 的 排名 ， 而 另 一 个 占据 了 中 间 的 排名 。 可 以 根据 排名 的 平均 值 或 关于 
排名 的 其 他 尺度 来 建立 统计 量 ， 而 且 可 以 用 随机 检验 理论 来 评估 它们 的 显著 性 水 平 。 这 样 的 
统计 量 包 括 sign 检验 统计 量 、Kolmogorov-Smirnov 检验 统计 量 和 Wilcoxon 检验 统计 量 。 有 
时 术语 非 参数 检验 (nonparametric test) 是 用 来 描述 这 种 检验 的 一 一 这 个 命名 根据 的 是 这 些 
检验 不 检验 任何 假设 分 布 的 参数 的 值 。 

从 贝 叶 斯 的 观点 来 看 ， 对 假设 及 和 已 的 比较 可 以 通过 比较 它们 的 后 验 概率 来 实现 : 


p(H; |x) «p(x | H)p(Hi) (4.20) 


取 两 个 假设 的 比 就 得 到 了 以 先 验 赔 率 prior odds) 和 似 然 率 表示 的 因 式 ， 也 就 是 贝 叶 斯 
因子 (Bayes factor): 


P(Hg!x) | P(Ho) p(x! Ho) 
P(A, |x)  p(Hı) p(xiH,) 


然而 这 里 还 存在 一 定 的 复杂 性 。 似 然 是 通过 对 假设 中 未 指定 参数 的 积分 而 得 到 的 边缘 似 
#& (marginal likelihoods)， 如 果 五 .是 指 连续 可 能 值 ( 例 如 ， 参 数 6 WHE, 6 可 以 取 0 到 1 间 
的 任意 值 ) 中 的 某 一 个 ， 那 么 先 验 概率 将 为 0。 处 理 这 种 问题 的 一 种 策略 是 为 9 的 给 定 值 赋 
一 个 离散 的 非 零 先 验 概 率 。 


4.6.2 ”数据 挖掘 中 的 假设 检验 
目前 为 止 本 节 所 描述 的 都 是 假设 检验 的 经 典 〈 频 率 论 的 ) 方法 。 然 而 在 数据 挖掘 中 ， 分 


(4.21) 
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析 可 能 变 得 更 为 复杂 。 

首先 ， 因 为 数据 挖掘 所 针对 的 是 庞大 的 数据 集 ， 所 以 我 们 应 该 对 统计 显著 性 有 所 戒备 : 
即便 假设 模型 形式 的 微小 偏差 也 可 能 被 确认 为 是 非常 显著 的 ， 即 使 这 些 变化 根本 没有 实践 意 
义 。( 如 果 他 们 是 有 实践 意义 的 ， 那 当然 很 好 。) 更 糟 的 是 ， 由 于 数据 污染 或 失真 产生 的 微小 
偏差 也 会 很 显著 地 表现 出 来 。 而 且 我 们 已 经 指出 这 种 数据 质量 的 问题 是 不 可 避免 的 。 

第 二 ， 系 列 化 的 (sequential) 模型 拟 合 过 程 是 很 常见 的 。 我 们 将 从 第 8 章 开始 描述 各 种 
分 步 的 《〈stepwise) 模型 拟 合 过 程 ， 通 过 增加 或 删除 某 些 项 来 逐步 提炼 模型 。 对 每 一 步 中 的 
模型 进行 分 别 的 检验 〈 就 好 像 又 是 一 个 新 的 ) 导致 出 错 的 概率 增 大 。 已 经 开发 出 了 正规 的 系 
列 检验 过 程 ， 但 非常 复杂 。 而 且 ， 由 于 同时 进行 多 个 检验 ， 这 些 过 程 可 能 很 脆弱 。 

第 三 ， 数 据 挖掘 本 质 上 就 是 一 个 具有 很 多 未 知 因素 的 探索 过 程 。 很 重要 的 一 点 是 数据 挖 
掘 中 将 分 析 很 多 个 模型 。 假 定 我 们 在 5% 的 水 平 检验 出 m 个 正确 的 零 假 设 〈 尽 管 这 是 我 们 无 
法 知道 的 )， 每 一 个 基于 它 自 己 的 数据 子 集 ， 独 立 于 其 他 的 检验 。 对 于 每 一 个 备 选 假设 来 说 ， 
存在 5% 的 概率 错误 拒绝 了 这 个 假设 。 既 然 检验 是 独立 的 ， 那 么 至 少 错误 拒绝 一 个 假设 的 概 
REE p = 1-(1-0.05)". %4 m=1 时, p =0.05， 这 是 可 以 的 。 但 当 m= 10 时 , p=0.4013; m= 
100 时 p = 0.9941。 因 此 ， 如 果 我 们 仅 检验 了 100 个 正确 的 零 假 设 ， 我 们 几乎 就 肯定 错误 地 
拒绝 了 至 少 一 个 备 选 假设 。 另 一 种 做 法 是 ， 我 们 可 以 控制 总 体 的 族 〈family) 错误 率 ， 设 定 
错误 拒绝 m 个 正确 的 零 假设 中 的 一 个 或 多 个 的 概率 为 0.05。 这 时 我 们 使 用 0.05=1-(1-0)”， 
对 于 给 定 的 m 求 出 检验 每 一 个 零 假设 的 显著 水 平 g。 对 于 m = 10， 我 们 达到 w = 0.0051; 对 
于 m = 100， 我 们 达到 w = 0.0005。 这 意味 着 我 们 有 很 小 的 概率 错误 拒绝 任何 一 个 单独 的 假设 
组 成 部 分 。 

当然 ， 实 践 中 情况 会 更 加 复杂 : 假设 不 可 能 是 完全 独立 的 〈 对 于 极端 的 情况 ， 如 果 假 设 
是 完全 依赖 的 ， 接 受 或 拒绝 一 个 假设 就 意味 着 接受 或 拒绝 了 全 部 )， 要 处 理 本 质 上 独立 性 不 
可 知 的 结构 ， 而 且 通 常 都 是 正确 的 〈 或 大 致 正确 ) 和 错误 的 零 假 设 混合 在 一 起 。 

已 经 开发 出 了 很 多 同步 的 检验 过 程 〈simultaneous test procedures) 来 缓解 这 些 困难 。 一 
种 基本 的 方法 是 基于 Bonferroni 不 等 式 。 我 们 可 以 把 没有 拒绝 任何 正确 零 假 设 的 概率 (1-00)” 
加 以 扩展 得 到 (1-o” S1-ma. CERF 1-1-0" 万 mo 一 一 也 就 是 ， 一 个 或 多 个 零 假 设 被 错 
误 拒 绝 的 概率 小 于 或 等 于 ma 一 一 推导 而 来 的 。 通常， 错误 拒绝 一 个 或 多 个 正确 的 零 假设 的 
概率 小 于 错误 拒绝 它们 中 每 一 个 的 概率 的 和 。 这 就 是 一 阶 Bonferroni 不 等 式 。 通 过 在 展开 式 
中 包含 其 他 项 ， 我 们 可 以 推出 更 加 精确 的 边界 一 一 尽管 它们 需要 假设 间 依 赖 关 系 的 信息 。 

对 于 某 些 检验 过 程 ， 可 能 发 生 这 样 的 问题 : 对 假设 族 的 全 局 检验 拒绝 了 零 假 设 〈 所 以 我 
们 相信 至 少 其 中 之 一 是 错误 的 )， 但 是 却 没有 任 一 个 单独 的 假设 组 成 部 分 是 被 拒绝 的 。 人 们 
也 已 经 开发 出 了 一 些 策略 ， 用 来 克服 特定 应 用 中 的 这 种 问题 。 例 如 ， 在 对 方差 的 多 变量 分 析 
中 ， 需 要 比较 已 经 测量 了 多 个 变量 的 几 组 对 象 ， 人 们 开发 出 了 克服 以 上 问题 的 检验 过 程 ， 做 
法 是 用 一 个 单一 的 阔 值 比较 每 一 个 检验 统计 量 。 

: 从 上 面 的 讨论 可 以 清楚 地 看 到 ， 尽 管 通过 假设 检验 为 不 同类 型 的 结论 给 出 不 同 的 概率 在 
数据 挖 所 中 确实 占有 一 席 之 地 ， 但 是 这 种 方法 还 没有 形成 ” 套 完 部 的 解 并 廊 案 。 个 加 Ta 
把 这 种 方法 看 作 一 种 更 一 般 的 过 程 结论 映射 为 一 个 数字 值 或 者 说 分 数 一 一 的 
一 个 特例 。 较 高 的 分 数 〔 或 较 低 的 ， PAUSED 表示 一 个 结 雪 论 或 模型 优 于 其 他 的 ， 而 
不 需要 做 任何 绝对 的 概率 解释 。 可 以 认为 第 7 章 中 描述 的 惩罚 性 拟 合 程度 评分 函数 是 属于 这 
一 框架 的 。 
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4.7 采样 方法 


前 面 曾经 指出 ， 数 据 挖掘 是 一 种 次 级 的 数据 分 析 ， 因 此 数据 挖掘 者 一 般 不 参与 直接 的 数 
据 采 集 过 程 。 然 而 ， 如 果 我 们 有 关于 数据 采集 过 程 的 信息 ， 那 么 对 我 们 的 分 析 可 能 是 有 价值 
的 ， 我 们 应 该 发 挥 这 些 信息 的 优势 。 传 统 的 统计 数据 采集 通常 是 从 回答 某 个 或 某 些 特定 问 题 
的 角度 ， 使 用 某 种 高 效 的 方式 来 进行 的 。 然 而 ， 既 然 数 据 控 据 是 发 现 意 外 的 〈unexpected ) 
或 无 法 预计 的 (unforeseen) 信息 ， 所 以 数据 挖 握 不 是 要 回答 数据 收集 前 就 已 确定 的 问题 。 
由 于 这 个 原因 ， 我 们 不 会 介绍 统计 中 被 称 为 试验 设计 (experimental design) 的 子 学 科 ， 因 为 
它 主 要 研究 采集 数据 的 最 佳 方法 。 数 据 控 掘 者 通常 对 数据 采集 过 程 没有 任何 控制 的 事实 有 时 
解释 了 数据 质量 低劣 的 原因 ， 数 据 可 能 对 被 采集 的 目的 很 理想 ， 但 对 于 数据 挖 握 是 不 够 理想 
的 





我 们 曾经 指出 ， 如 果 数 据 库 包 含 了 整个 总 体 ， 那 么 统计 推理 的 思想 就 没有 用 了 : 如 果 我 
们 想 知道 某 个 总 体 参数 的 值 〈 比 如 说 ， 平 均 交 易 额 ， 或 最 大 交易 额 )， 那 么 计算 出 来 就 可 以 
了 。 当 然 ， 这 里 假定 数据 理想 地 描述 了 总 体 ， 不 存在 测量 误差 ， 数 据 残 缺 missing data), 
数据 损坏 ， 等 等 。 不 过 正如 我 们 所 看 到 的 ， 这 是 不 可 能 的 条 件 ， 所 以 我 们 还 是 要 根据 记录 的 
数据 来 对 “真实 的 ”潜在 总 体 值 做 出 推理 。 

此 外 ， 有 时 总 体 和 样本 的 概念 可 能 会 产生 误导 。 例 如 ， 即 使 总 体 值 已 经 被 捕捉 到 数据 库 
中 ， 但 多 数 情况 下 我 们 的 目标 并 不 是 描述 总 体 ， 而 是 要 做 出 关于 将 来 可 能 值 的 某 个 结论 。 例 
如 ， 我 们 可 能 已 经 得 到 某 一 天 一 个 连锁 超市 的 销售 数据 的 总 体 。 这 时 我 们 可 能 非常 希望 得 出 
某 种 推理 性 的 结论 一 一 指出 下 一 天 或 将 来 某 一 天 的 平均 销售 额 。 这 也 涉及 很 多 不 确定 性 ， 但 
这 与 前 面 讨论 的 有 所 不 同 。 实 质 上 ， 这 里 我 们 所 关心 的 是 预报 forecasting)。 在 市 场 分 析 中 ， 
我 们 实际 上 不 是 要 描述 上 个 月 的 顾客 购买 模式 ， 而 是 要 预报 顾客 下 个 月 的 可 能 行为 。 

我 们 已 经 区 分 了 数据 挖掘 中 样本 产生 的 两 种 方式 。 第 一 ， 有 时 数据 库 本 身 仅 是 更 大 总 体 
的 一 个 样本 。 第 2 章 中 我 们 描述 了 这 种 情况 的 含义 和 与 之 联系 的 风险 。 第 二 ， 数 据 库 包 含 了 
总 体 中 所 有 对 象 的 记录 ， 但 数据 分 析 仅 是 以 从 中 抽取 的 一 个 样本 为 基础 的 。 后 一 种 技术 仅 适 
合 于 建 模 的 情况 和 某 些 模式 识别 的 情况 。 当 我 们 要 寻找 异常 的 记录 个 体 时 它 是 不 合适 的 。 

我 们 的 目标 是 从 数据 库 中 抽取 一 个 样本 以 建立 一 个 反映 数据 库 中 数据 结构 的 模型 。 仅 使 
用 一 个 样本 ， 而 不 使 用 整个 数据 集 的 原因 是 效率 。 对 于 极端 的 情况 ， 使 用 庞大 的 整个 数据 库 
在 时 间 和 所 需 运算 方面 可 能 是 不 可 行 的 。 通 过 仅 对 样本 进行 运算 ， 我 们 可 以 使 计算 变 得 更 简 
单 和 更 迅速 。 然 而 ， 抽 取 的 样本 应 该 反映 完整 集合 的 结构 是 非常 重要 的 一 一 也 就 是 要 保证 样 
本 代表 了 整个 数据 库 。 

有 很 多 种 策略 保证 抽取 的 样本 具有 代表 性 。 如 果 我 们 仅 要 从 两 条 记录 中 取 一 条 采样 率 
(sampleing fraction) 为 0.5)， 那 么 我 们 可 以 简单 地 每 隔 一 条 记录 取 一 条 。 这 种 直接 的 方法 
被 称 为 系统 采样 〈systematic sampling)。 很 多 时 候 这 种 方法 是 足够 好 的 。 然 而 ， 也 可 能 导致 
意外 的 问题 。 例 如 ， 如 果 数 据 库 包 含 已 婚 夫妇 的 记录 ， 丈 夫 和 妻子 是 对 应 不 同 记 录 的 ， 那 么 
系统 采样 的 结果 可 能 是 极 差 的 一 一 得 出 的 结论 可 能 是 完全 错误 的 。 一 般 来 说 ， 在 任何 按照 菜 
一 规律 选取 案例 的 采样 模式 中 都 存在 和 数据 库 中 的 未 知 规律 相 作 用 的 风险 。 显 然 我 们 下 要 的 
是 一 种 避免 规律 性 的 选择 模式 一 一 一 种 随机 的 选择 模式 。 

这 里 使 用 随机 一 词 的 含义 是 为 了 避免 规律 性 。 这 与 本 章 前 面 使 用 这 个 词 的 用 法 略微 不 
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同 ， 前 面 这 个 词 是 指 选取 样本 的 机 制 ， 它 描述 了 一 条 记录 被 选 作 样本 的 概率 。 可 以 看 出 ， 具 
有 第 二 种 随机 含义 的 样本 可 以 用 作 统 计 推 理 的 基础 : 例如 ， 我 们 可 以 做 出 有 多 大 可 能 样本 均 
值 和 总 体 均值 问 会 存在 本 质 差 异 的 结论 。 

如 果 我 们 使 用 随机 过 程 抽取 一 个 样本 ， 那 么 这 个 样本 满足 第 二 种 含义 ， 而 且 也 可 能 满足 
第 一 种 。( 实 际 上 ， 如 果 我 们 明确 指出 我 们 所 指 的 “规律 ”是 什么 ， 那 么 我 们 就 可 以 给 出 随 
机 抽取 的 样本 不 匹配 这 个 规律 的 精确 概率 . ) 为 了 避免 我 们 的 结论 存在 偏差 ， 我 们 应 该 把 样 
本 选取 机 制 设计 为 数据 库 中 的 每 一 条 记录 具有 相同 的 被 抽取 机 会 。 总 体 中 每 个 成 员 具 有 相同 
被 抽取 概率 的 样本 被 称 为 epsem (等 概率 选择 每 成 员 ) 样本 。 最 基本 的 epsem 采样 形式 是 简 
单 的 随机 采样 ， 也 就 是 从 数据 库 中 的 N 条 记录 中 抽取 n 条 记录 的 样本 ， 抽 取 的 方式 是 保证 x 
条 记录 中 的 每 一 条 被 抽取 的 概率 都 是 相同 的 。 简 单 随机 样本 对 总 体 均 值 的 估计 就 是 样本 均 
值 。 

现在 我 们 应 该 指出 放 回 (replacement) 抽样 和 不 放 回 抽 样 的 差异 。 对 于 前 者 ， 一 条 已 经 
抽取 的 记录 有 机 会 被 再 次 抽取 ， 但 对 后 一 种 情况 ， 一 条 记录 一 旦 被 抽出 就 不 可 能 被 第 二 次 抽 
到 。 在 数据 挖 拨 中 ， 因 为 样本 容量 相对 总 体 容量 经 常 是 很 小 的 ， 所 以 这 两 种 过 程 结果 的 差异 
通常 是 被 忽略 的 。 

图 4-5 演示 了 一 个 简单 随机 抽样 过 程 的 结果 ， 样 本 是 用 来 计算 某 个 总 体 的 一 个 变量 的 均 
值 的 。 总 体 的 真实 均值 为 0.5。 随 机 抽取 指定 容量 的 样本 ， 然 后 计算 它 的 均值 ， 我 们 重复 这 
个 过 程 200 次 并 画 出 了 结果 的 直方 图 。 
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图 4.5 “显示 了 样本 容量 为 10 (a), 100 Cb) 和 1 000 Ce) 时 计算 出 的 样本 均值 分 布 


从 图 中 可 以 明显 看 出 ， 样 本 越 大 ， 样 本 均值 分 布 得 越 靠 近 真实 的 均值 。 通 常 ， 如 果 大 小 
[EE“ 为 的 总 体 的 方差 是 oz， 那 么 从 这 个 总 体 抽出 的 大 小 为 闫 的 简单 随机 样本 《不 放 回 抽样 》 的 
均值 的 方差 为 : 
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——(1-—) (4.22) 


因为 通常 我 们 要 处 理 的 情况 是 相对 n 来 说 , N 是 很 大 的 (也 就 是 涉及 较 小 采样 率 的 情况 )， 
所 以 我 们 通常 可 以 忽略 第 二 项 ， 于 是 这 个 方差 的 一 个 很 好 近似 就 是 6 Yn。 由 此 可 以 得 出 ， 样 
本 越 大 ， 样 本 均值 显著 偏离 总 体 均值 的 可 能 性 越 小 一 一 这 解释 了 为 什么 图 4-5 中 的 直方 图 随 
着 样本 容量 的 增 大 散布 得 越 来 越 窗 。 也 要 注意 这 个 结果 是 独立 于 总 体 容量 的 。 这 里 起 作用 的 
是 样本 容量 ， 而 不 是 采样 率 的 大 小 ， 也 不 是 包含 这 个 样本 的 总 体 的 大 小 。 我 们 也 可 以 看 到 ， 
当 样本 容量 加 倍 时 ， 标 准 差 不 是 按 因 子 2 减 小 的 ， 而 仅 是 按 V2 一 一 存在 对 样本 容量 增加 的 
扣 减 。 我 们 根据 样本 使 用 以 下 标准 估计 量 来 估计 Ga”: 


L(x(i)- X (n — 1) (4.23) 


其 中 OER i MERE, X RRA n MERKE. 
简单 随机 样本 是 样本 设计 的 最 基本 形式 ， 但 也 已 经 开发 出 了 具有 要 求 属 性 的 其 他 方法 以 适合 








不 同 的 应 用 环境 。 对 此 的 详细 论述 可 以 查阅 有 关 调查 采样 的 书籍 ， 比 如 本 章 末 尾 所 列 出 的 那些 。 


这 里 我 们 简要 描述 两 种 重要 的 采样 模式 。 

在 分 层 随 机 采 祥 〈stratified random sampling) 中 ， 总 体 被 分 成 不 重 玖 的 子 总 体 或 称 为 层 
Cstrata)， 然 后 从 每 一 层 中 分 别 抽出 一 个 样本 〈 经 常 是 简单 随机 样本 ， 但 不 是 必须 的 )。 使 
用 这 一 过 程 有 很 多 潜在 的 优势 。 很 明显 的 一 个 优势 是 这 样 我 们 可 以 对 每 一 个 子 总 体 分 别 做 出 
结论 ， 不 需要 担心 无 法 保证 每 一 个 子 总 体 都 有 一 定数 量 的 观察 值 。 一 个 更 微妙 但 经 常 更 重要 
的 优势 是 ， 如 果 从 某 个 感 兴趣 变量 的 角度 来 看 ， 每 个 层 是 同 质 的 〈homogeneous) (ATEZ 
量 之 间 的 大 多 数 变化 都 反映 在 了 层 间 的 差异 上 )， 那 么 整体 估计 出 的 方差 可 能 比 从 简单 随机 
样本 估计 出 的 小 。 为 了 说 明 这 一 点 考虑 以 下 例子 。 一 家 信用 卡 公司 把 它 的 交易 分 成 26 个 类 
H: 超市 、 旅 行 代理 、 加 油 站 ， 等 等 。 假 定 我 们 要 估计 交易 的 平均 值 。 我 们 可 以 从 数据 库 的 
记录 中 取 一 个 简单 随机 样本 ， 并 计算 它 的 均值 作为 我 们 的 估计 。 然 而 ， 使 用 这 样 的 过 程 ， 某 
些 交 易 类 型 可 能 在 我 们 的 样本 中 没有 被 充分 代表 〈underrepresented)， 而 代表 某 些 类 型 的 数 
据 可 能 又 过 多 〈overrepresented)。 我 们 可 以 通过 强制 为 每 一 种 交易 类 型 包含 一 定数 量 的 数据 
来 对 此 进行 控制 。 这 就 是 分 层 采 样 ， 交 易 类 型 就 是 层 。 这 个 例子 说 明了 为 什么 层 必须 是 内 部 
相对 同 质 的 ， 异 质 发 生 在 层 间 。 如 果 所 有 的 层 都 有 和 整个 总 体 相同 的 散布 ,那么 分 层 是 没有 
任何 优势 的 。 

通常 ， 假 定 我 们 要 估计 对 于 某 一 变量 的 总 体 均 值 ， 而 且 我 们 使 用 一 个 分 层 的 样本 ， 在 每 
一 层 中 使 用 简单 随机 采样 。 假 定 第 大 层 中 有 NN, 个 元 素 ， 而 且 这 些 值 中 有 个 被 抽出 作为 这 
一 层 的 样本 。 用 去 表示 第 上 层 的 样本 均值 ， 总 体 均 值 的 估计 可 以 通过 下 式 给 


了 二 (4.24) 
其 中 六 是 总 体 的 总 容量 。 这 个 估计 量 的 方差 是 
L Y Ngara) (4.25) 
N 


其 中 war (X,) BAK BKAA ni 的 简单 随机 样本 的 方差 。 
数据 经 常 具 有 一 种 层次 结构 。 例 如 ， 字 母 出 现在 词汇 中 ， 词 汇 在 句子 中 ， 句 子 组 成 段落 ， 
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段落 出 现在 章节 中 ， 章 节 形 成 书籍 ， 很 多 书籍 组 成 图 书馆 ， 等 等 。 有 时 建立 一 个 完整 的 采样 
框架 并 抽出 一 个 简单 随机 样本 是 很 困难 的 。 一 个 组 织 可 能 有 很 多 网 络 站 点 ， 每 个 站 点 有 很 多 
不 同 的 计算 机 ， 每 台 计算 机 上 有 很 多 文件 ， 如 果 我 们 要 研究 这 些 文件 ， 那 么 我 们 可 能 发 现 要 
产生 一 个 完整 的 文件 列表 以 便 从 中 进行 简单 随机 采样 是 不 可 能 的 。 在 成 筷 cluster〉 采样 中 ， 
不 是 抽取 我 们 感 兴趣 的 元 素 个 体 作为 样本 ， 而 是 抽取 包含 多 个 元 素 的 单元 作为 样本 。 在 计算 
机 文件 的 例子 中 ， 我 们 可 能 抽出 多 台 计 算 机 作为 样本 。 我 们 可 以 分 析 每 一 台 抽出 的 计算 机 上 
的 所 有 文件 ， 或 者 也 可 以 进行 进一步 的 采样 。 
各 个 入 的 大 小 经 常 是 不 等 的 。 在 上 面 的 例子 中 ， 我 们 可 以 把 计算 机 看 作 提 供 了 文件 簇 ， 
一 个 组 织 的 所 有 计算 机 内 具有 同样 数量 的 文件 几乎 是 不 可 能 的 。 但 具有 相同 大 小 簇 的 情况 确 
实 存在 。 工 业 生产 提供 了 很 多 这 样 的 例子 ， 例 如 六 瓶 一 箱 的 啤酒 ， 如 果 每 一 个 被 选 出 的 能 的 
所 有 单元 都 被 选 出 〈 如 果 二 次 采样 率 是 1)， 那 么 每 个 单元 被 选择 的 概率 是 UK， 其 中 a 是 从 
K 个 外 的 整个 集合 中 选 出 的 艇 数 。 如 果 并 非 所 有 单元 都 被 选 出 ， 但 每 一 簇 中 的 采样 率 是 相同 
的 ， 那 么 每 个 单元 有 相等 的 概率 被 样本 所 包含 (这 个 样本 将 是 一 个 epsem 样本 )。 这 是 一 种 
136| ”常见 的 设计 。 基 于 这 一 设计 的 统计 量 的 方差 估计 不 如 前 面 所 描述 的 情况 那样 直接 ， 因 为 样本 
137| ”大 小 也 是 一 个 随机 变量 ( 它 依赖 于 哪 一 艇 恰好 被 样本 所 包含 )。 此 时 变量 均值 的 估计 是 两 个 
随机 变量 的 比率 样本 中 包含 的 单元 总 和 和 样本 中 包含 的 单元 总 数量 。 用 表示 从 第 个 入 
抽出 的 简单 随机 样本 的 大 小 ， 用 立 表示 从 大 层 选取 的 单元 的 总 和 ， 那 么 样本 均值 r 为: 








Yi Yin (4,26) 
如 果 我 们 用 /表示 整个 样本 采样 率 (经常 是 很 小 的 所 以 可 以 忽略 )， 那 么 7 的 方差 是 : 
1- 
Ta? (Ssh +r? Sink -2r sum) (4.27) 


48 ”本章 归 纳 


事 无 定论 。 在 数据 挖掘 中 ， 我 们 的 目标 是 从 数据 中 寻找 新 的 发 现 。 我 们 希望 对 我 们 的 结 
论 的 正确 性 尽 可 能 地 信心 十 足 ， 但 是 很 多 时 候 我 们 必须 满足 于 一 个 可 能 错误 的 结论 一 一 尽管 
如 果 我 们 可 以 同时 指出 我 们 对 结论 的 置信 程度 会 好 一 些 。 当 我 们 分 析 整 个 总 体 时 ， 不 确定 性 
会 通过 不 尽 人 意 的 数据 质量 悄悄 混 进来 : 某 些 值 可 能 是 被 记录 错误 了 ; 某 些 值 可 能 是 残缺 的 
总 体 的 菜 些 成 员 可 能 被 整个 数据 库 所 遗漏 了 ; 等 等 。 当 我 们 工作 在 样本 上 时 ， 我 们 的 目的 经 
常 是 得 出 一 个 结论 ， 这 个 结论 可 以 应 用 到 从 中 抽取 样本 的 更 广阔 总 体 。 对 付 这 些 问题 的 基本 
工具 是 概率 。 这 是 处 理 不 确定 性 的 统一 语言 ， 一 种 在 上 个 世纪 中 一 直 被 提炼 的 语言 ， 而 且 它 
已 经 被 应 用 到 无 数 的 领域 。 概 率 思想 的 应 用 使 我 们 能 够 得 到 最 佳 的 估计 值 ， 即 使 是 面 对 数 据 
不 够 充分 的 情况 ， 甚 至 当 仅仅 测量 了 一 个 样本 的 时 候 。 而 且 ， 应 用 这 种 思想 ， 我 们 还 可 以 量 
化 我 们 对 所 得 结论 的 把 握 。 

本 书 的 其 余部 分 大 量 地 应 用 了 概率 理论 。 这 些 理论 是 很 多 一 一 甚至 是 大 多 数 一 一 数据 控 
[38] 气 工 具 的 基础 ， 从 全 局 的 建 模 到 局 部 的 模式 识别 。 
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4.9 补充 读物 


讨论 不 同 概率 学 派 以 及 统计 推理 的 著作 包括 DeFinetti (1974, 1975), Barnett (1982), 
Bernardo and Smith (1994)。 关 于 统计 量 和 特定 统计 模型 的 其 他 参考 文献 在 第 6 章 、 第 9 章 、 
第 10 章 和 第 11 章 的 末尾 给 出 。 

有 很 多 关于 基本 概率 计算 的 好 书 ， 包 括 Grimmett and Stirzaker (1992) 和 Feller (1968, 
1971). Hamming (1991) 是 面向 工程 师 和 计算 机 科学 工作 者 的 (包含 了 很 多 有 趣 的 示例 》 
一 本 教科 书 ，Applebaum (1996) 是 面向 数学 专业 研究 生 的 。 概 率 计算 是 应 用 数学 的 活跃 领 
R, 而且 它 也 大 大 得 益 于 它 所 应 用 的 各 个 领域 。 例 如 ，Alon and Spencer (1992) 描绘 了 概 
率 在 现代 计算 机 科学 中 应 用 的 迷人 之 旅 。 

关于 Kolmogorov 复杂 性 的 著作 (例如 Li and Vitanyi, 1993) 讨论 了 避免 规律 和 可 预测 
性 的 随机 思想 。 

Whittaker (1990) 精彩 论述 了 在 图 形 模 型 中 处 理 条 件 依 赖 和 独立 的 一 般 原 则 。Pearl (1988) 
是 一 本 从 人 工 智 能 的 角度 探索 这 一 领域 的 莫 基 之 作 。 

有 大 量 关 于 统计 推理 的 入 门 教材 ， 例 如 Daly et al. (1995)， 还 有 一 些 提高 性 教材 深入 的 
讨论 了 推理 概念 ， 比 如 Cox and Hinkley (1974), Schervish (1995), Lindsey (1996), Lehmann 
and Casella (1998) ,and Knight (2000). Edwards (1972) 对 似 然 及 其 应 用 进行 了 广泛 的 讨 
论 。 目 前 ， 贝 叶 斯 方法 是 几乎 所 有 书籍 的 一 个 主题 。Gelman et al. (1995) 是 关于 贝 叶 斯 方 
法 的 一 本 很 好 教材 。Bernardo and Smith (1994) 是 关于 贝 叶 斯 方法 的 一 本 全 面 的 参考 书 ，Lee 

(1989) 作 了 比较 简要 的 介绍 。 讨 论 非 参数 方法 的 著作 有 Randles and Wolfe (1979) 和 Maritz 
(1981). Efron and Tibshirani (1993) 介绍 了 bootstrap 方法 。 

Miller (1980) 介绍 了 同步 检验 过 程 。 我 们 前 面 列 举 的 对 多 参数 推理 问题 的 解决 方法 不 
是 仅 有 的 ，Lindsey (1999) 描述 了 其 他 方法 。 

关于 调查 采样 的 书 讨论 了 抽取 样本 的 高 效 策略 一 一 例如 ，Cochran (1977) 以 及 Kish 

(1965). 
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第 5 章 数据 挖掘 算法 概览 


5.1 简介 


这 一 章 我 们 从 一 般 意 义 上 来 探讨 一 下 数据 挖掘 算法 及 构成 这 些 算 法 的 组 件 。 我 们 对 数据 
多 据 算法 的 定义 是 : 


数据 挖 据 算 法 是 一 个 定义 完备 的 (well-defined ) 过 程 ， 它 以 数据 作为 输入 并 产 
生 模 型 或 模式 形式 的 输出 。 


定义 完备 《well-defined) 指 的 是 这 个 过 程 可 以 被 精确 地 编码 为 有 限 的 规则 。 作 为 一 个 算 
法 ， 它 的 过 程 必须 总 能 在 有 限 步 后 终止 并 输出 结果 。 

相对 而 言 ， 计 算 方法 具备 除了 不 能 保证 过 程 在 有 限 步 后 终止 外 的 所 有 算法 特征 。 通 常 在 
算法 的 说 明 中 定义 了 许多 实际 的 实现 细节 ;而 计算 方法 一 般 只 进行 比较 抽象 的 描述 。 例 如 ， 
最 陡峭 下 降 (steepest descent) 搜索 技术 是 一 种 计算 方法 ， 它 本 身 并 不 是 一 个 算法 (这 种 搜 
索 方法 是 在 参数 空间 里 沿 着 使 评分 函数 (score function) 相对 当前 参数 值 最 陡峭 下 降 的 方向 
不 断 移动 ;。 要 使 用 最 陡峭 下 降 方法 来 定义 一 个 算法 ， 我 们 需要 给 出 精确 的 方法 来 确定 从 哪 
里 开始 下 降 ， 怎 样 确认 最 陡峭 下 降 的 方向 〈 是 要 精确 计算 还 是 大 约 估计 ? )， 要 在 选 定 的 方 
向 上 移动 多 远 ， 以 及 什么 时 候 终止 搜索 〈 例 如 ， 检 测 到 收敛 在 一 个 局 部 极 小 值 )。 

正如 第 一 章 中 所 简要 讨论 的 ， 求 解 某 个 特定 任务 的 数据 挖掘 算法 的 说 明 中 包含 了 算法 组 
件 的 具体 定义 : 

1. 该 算法 所 针对 的 数据 挖掘 任务 〈 例 如 ， 可 视 化 、 分 类 、 聚 集 、 回 归 等 等 )。 通 常 ， 不 
同 的 任务 需要 不 同类 型 的 算法 。 

2. 用 于 拟 合 数据 的 模型 或 模式 的 结构 〈 函 数 形 式 )， 例 如 线性 回归 模型 ， 层 次 聚 类 模型 
等 等 。 这 个 结构 定义 了 我 们 可 以 近似 或 学 习 的 边界 。 在 这 个 边界 范围 内 ， 数 据 引 导 我 们 得 到 
特定 的 模型 或 模式 。 在 第 6 章 里 我 们 将 更 加 详细 的 讨论 数据 控 气 算法 中 所 广泛 应 用 的 模型 或 
模式 结构 。 

3. 用 于 根据 观察 到 的 数据 判断 拟 合 后 的 模型 或 模式 质量 的 评分 函数 〈 例 如 误 分 类 率 或 
误差 平方 等 )。 正 如 第 7 章 将 要 讨论 的 ， 评 分 函数 就 是 当 我 们 把 参数 和 模型 及 模式 拟 合 起 来 
时 要 最 大 化 或 最 小 化 的 函数 。 因 此 ， 评 分 函数 在 反映 模型 或 模式 的 不 同 参数 化 过 程 的 实际 效 
果 方 面 是 很 重要 的 。 此 外 ， 评 分 函数 对 于 学 习 和 泛 化 也 是 至 关 重 要 的 。 它 可 以 仅仅 基于 拟 合 
完满 度 〈 也 就 是 模型 多 好 的 描述 了 观察 数据 )， 也 可 以 尽 可 能 的 捕捉 泛 化 性 能 〈 也 就 是 模型 
多 好 的 描述 了 我 们 没有 见 到 过 的 数据 )。 在 后 面 的 章节 中 我 们 会 看 到 ， 这 是 -个 很 有 讲究 的 
问题 。 

4. 用 于 对 参数 或 结构 进行 搜索 的 搜索 方法 或 优化 方法 ， 也 就 是 使 评分 函数 相对 特定 的 
模型 或 模式 最 大 化 〈 或 最 小 化 ) 的 计算 过 程 或 算法 。 这 里 的 问题 包括 优化 评分 通 数 〈 例 如 ， 
最 陡峭 下 降 ) 以 及 与 搜索 相关 的 参数 〈 例 如 ， 选 代 的 最 大 次 量 以 及 迭代 算法 的 收敛 性 )。 如 
果 模 型 (或 模式 ) 结构 是 简单 且 固 定 的 (例如 输入 数据 的 k 阶 多 项 式 函 数 )， 那 么 搜索 将 在 
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参数 空间 里 进行 ， 目 的 是 相对 这 个 固定 结构 形式 优化 评分 函数 。 如 果 模 型 〈 或 模式 ) 的 结构 
包含 一 组 (或 一 族 ) 不 同 的 结构 ， 那 么 搜索 既 要 针对 这 些 结构 又 要 针对 和 这 些 结构 相 联系 的 
参数 空间 。 优 化 和 搜索 通常 是 所 有 数据 挖掘 算法 的 核心 部 分 ， 我 们 将 在 第 8 章 中 非常 详细 地 
讨论 这 个 内 容 。 

5. 用 于 存储 、 索 引 、 检 索 数 据 的 数据 管理 技术 。 许 多 统计 和 机 器 学 习 算法 并 不 指定 任 
何 数据 管理 技术 ， 实 质 上 是 假定 数据 集 足 够 小 可 以 驻 留 在 主 存储 器 中 ， 以 至 于 相对 于 总 的 实 
际 计算 开销 ， 随 机 访问 任何 数据 点 的 时 间 都 是 可 以 忽略 的 。 然 而 ， 大 规模 数据 集 可 能 超过 了 
现 有 主 存储 器 的 存储 能 力 ， 因 而 驻 留 在 二 级 〈 例 如 磁盘 ) 或 三 级 〈 例 如 磁带 ) 存储 器 中 。 访 
问 这 样 的 数据 显然 要 慢 于 访问 主 存储 器 中 的 数据 ， 因 此 ， 对 于 大 规模 数据 集 ， 数 据 的 物理 位 
置 和 访问 方式 对 于 算法 的 效率 是 至 关 重要 的 。 有 关 数 据 管理 这 一 方面 的 内 容 将 在 第 12 章 里 
作 更 深入 的 讨论 。 

表 5-1 演示 了 如 何 把 三 个 著名 的 数据 控 气 算法 (CART， 反 向 传播 (backpropagation)，(A 
Priori) 算法 ) 按 它们 的 基本 组 件 来 描述 。 本 章 后 面 将 详细 的 讨论 这 三 个 算法 中 的 每 一 个 。( 从 
表 中 可 以 容易 地 看 出 统计 学 与 数据 挖掘 的 一 点 不 同 。 统 计 学 家 会 认为 CART 是 一 个 模型 ， 反 
向 传播 是 一 个 参数 估计 算法 。 而 数据 挖掘 更 倾向 于 从 算法 的 角度 看 问题 : 用 算法 处 理 数据 
以 产生 结果 。 这 个 差异 完全 是 观察 角度 上 的 而 不 是 实质 上 的 。) 


表 5-1 把 三 种 著名 的 数据 挖掘 算法 分 解 成 算法 组 件 
分 类 和 回归 回归 
决策 树 神经 网 络 〈 非 线性 函数 ) 
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确定 模型 〈 或 模式 ) 结构 以 及 评分 函数 的 过 程 通常 是 “ 脱 机 的 ”， 属 于 解决 数据 挖掘 问 
题 过 程 中 以 人 为 中 心 的 那 一 部 分 。 一旦 数据 、 模 型 〈 或 模式 ) 结构、 以 及 评分 函数 都 确定 下 
来 ， 那 么 剩 下 的 问题 一 一 优化 评分 函数 一 一 很 大 程度 上 是 计算 上 的 了 。 (实践 中 ， 由 于 要 根 
据 前 一 次 的 结果 改进 模型 和 评分 函数 ， 所 以 这 个 过 程 要 重复 很 多 次 。) 因此 ， 数 据 挖掘 算法 
的 算法 核心 是 用 来 实现 搜索 和 数据 管理 部 分 的 计算 方法 。 

本 章 给 出 的 对 数据 挖掘 算法 的 基于 组 件 的 描述 为 数据 挖掘 算法 的 分 解 与 合成 提供 了 一 个 
高 层次 的 框架 。 从 分 解 的 角度 来 看 ， 以 分 解 形式 描述 现 有 的 数据 算法 可 以 阐明 每 个 组 件 的 作 
用 ， 而 且 可 以 更 容易 的 比较 多 个 类 似 的 算法 。 例 如 ， 可 以 根据 每 个 组 件 来 判断 两 个 算法 之 间 
的 区 别 ， 比 较 它 们 在 模型 结构 、 评 分 函数 、 搜 索 方 法 或 数据 管理 策略 方面 是 否 不 同 。 从 合成 
的 角度 来 看 ， 以 不 同 的 组 合 方式 将 不 同 的 组 件 合成 在 一 起 , 就 能 建立 起 具有 不 同性 质 的 算法 。 
在 第 9 到 第 14 章 里 我 们 将 结合 具体 的 算法 更 详细 地 讨论 每 个 组 件 。 在 这 一 章 里 我 们 将 集中 
从 宏观 上 讨论 怎样 把 各 个 部 分 组 合 在 一 起 。 本 章 的 主题 是 对 数据 挖掘 算法 的 基于 组 件 观点 为 
数据 挖掘 算法 的 描述 、 分 解 以 及 合成 提供 了 一 种 简洁 而 且 结构 化 的 语言 。 

对 于 大 部 分 内 容 ， 我 们 的 讨论 仅 限于 只 有 单一 模型 或 模式 结构 〈 比 如 树 、 多 项 式 等 等 ) 
的 情况 ， 不 考虑 对 同一 问题 使 用 多 种 类 型 模型 结构 的 那些 情况 。 当 然 组 件 观点 也 可 被 推广 到 
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可 以 处 理 这 些 情况 ， 但 通常 评分 函数 ， 搜 索 方法 ， 以 及 数据 管理 技术 都 会 变 得 更 加 复杂 。 
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图 5-1 色 度 对 酒精 浓度 的 散 点 图 。 数 据 挖掘 的 任务 是 要 将 酒 分 为 三 类 
(三 个 不 同 的 品种 )， 它 们 在 图 上 有 各 自 不 同 的 标记 。 数 据 最 初 
来 自 于 一 个 13 维 的 数据 集 ， 其 中 的 每 个 变量 衡量 了 酒 的 某 种 特征 


5.2 建立 树 分 类 器 的 CART 算法 


为 了 阐明 按 算法 组 件 分 析 算 法 的 一 般 思想 ， 我 们 首先 看 一 个 用 于 分 类 问题 的 著名 算法 ， 

CART (分 类 和 回归 树 ，Classification and Regression Trees) 算法 是 一 种 广泛 应 用 的 基于 
树 结构 产生 分 类 和 回归 模型 的 统计 过 程 。 为 简便 起 见 ， 我 们 只 考虑 CART 算法 的 分 类 功能 ， 
也 就 是 将 一 个 输入 向 量 x 映射 到 一 个 范畴 型 的 (类 ) 输出 标记 》( 参 见 图 5-1)。( 关 于 CART 
算法 更 多 的 细节 讨论 将 在 第 10 章 中 给 出 。) 按照 上 面 讨论 的 组 件 说 法 ， 可 以 把 CART 看 作 是 
由 以 下 组 件 构成 的 “算法 组 合 (algorithm-tuple )”: 

1. 任务 = 预测 〈 分 类 ) 

2. 模型 结构 = 树 

3. 评分 函数 = 交叉 验证 的 损失 函数 〈cross-validated loss function ) 

4， 搜 索 方法 = “FÆ” ARRE (greedy local search) 

5. 数据 管理 方法 = 未 指定 

CART 算 法 的 突出 特征 是 其 应 用 的 模型 结构 一 一 分 类 树 。CART 树 模型 为 一 个 分 层 的 一 元 
二 叉 树 结构 。 图 5-2 给 出 了 这 种 分 类 树 的 一 个 简单 例子 它 对 应 于 图 5-1 中 的 数据 。 树 中 的 每 一 
个 内 部 节点 指定 了 一 个 对 单一 变量 的 二 择 一 测试 ， 对 于 实数 值 变量 和 整数 值 变量 使 用 的 是 用 
益 值 , 对 于 范畴 型 变量 使 用 的 是 隶属 关系 子 集 。( 通 常 ， 我 们 在 每 个 节点 使 用 b 个 分 支 , b 宇 2。) 
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一 个 数据 向 量 x 由 树 根 沿 唯一 路 径 下 降 到 某 个 叶子 节点 ， 具 体 的 路 径 取 决 于 x 的 各 个 分 量 在 
内 部 节点 的 二 择 一 测试 结果 。 每 个 叶子 节点 指定 了 那个 叶子 的 最 可 能 分 类 的 类 标签 ， 或 更 准 
确 地 说 ， 叶 子 结 点 指定 了 分 类 值 的 条 件 概率 分 布 ， 条 件 就 是 通 往 这 个 时 子 的 分 支 。 





图 5-2 ”图 5-1 中 数据 的 分 类 树 ， 其 中 测试 是 由 内 部 节点 上 变量 的 阔 值 〈 显 示 
在 分 支 旁边 ) 组 成 的 ， 叶 子 节点 包含 了 分 类 决定 。 注 意 标 有 问号 的 
叶子 ， 这 是 表示 这 个 区 域 数 据点 的 分 类 标签 有 相当 大 的 不 确定 性 


树 的 结构 是 由 数据 得 来 的 ， 而 不 是 预先 确定 的 〈 这 正 是 数据 挖掘 起 作用 之 处 )。CART 
是 这 样 工作 的 ， 首 先 方式 是 用 最 好 的 变量 将 数据 在 根 节点 处 分 为 两 组 。 它 可 以 在 几 种 不 同 的 
分 裂 标准 中 任 选 一 种 ; 所 有 标准 实质 上 都 是 将 数据 在 中 间 节 点 处 划分 为 两 个 不 相交 的 子 集 ( 分 
支 )， 同 时 使 每 个 子 集中 的 分 类 标签 尽 可 能 同 质 。 然 后 对 每 个 子 节点 上 的 数据 重复 地 应 用 这 
种 分 裂 方法 ， 等 等 。 最 终 树 的 大 小 是 由 下 面 将 要 讲 的 复杂 的 “修剪 ”过 程 所 决定 的 。 如 果树 
太 大 可 能 会 导致 过 度 拟 合 ， 但 太 小 又 不 能 为 精确 分 类 提供 足够 的 预测 能 力 。 

树 结构 的 分 层 形式 将 CART 这 样 的 算法 从 其 他 基于 非 树 结构 〈 例 如 ， 使 用 所 有 变量 的 线 
性 组 合 在 给 定 空间 里 定义 边界 的 模型 》 的 算法 中 清楚 的 区 分 出 来 。 用 于 分 类 的 树 结 构 很 容易 
处 理 混合 类 型 的 输入 数据 〈 例 如 ， 范 畴 型 数据 和 实数 值 数据 的 组 合 )， 因 为 每 一 个 内 部 节点 
都 依赖 于 唯一 一 个 简单 的 二 择 一 测试 。 此 外 ， 因 为 CART 每 次 只 用 一 个 变量 建立 树 ， 因 此 它 
可 以 容易 地 处 理 大 量 的 变量 。 另 一 方面 ， 树 结构 的 表示 力 是 比较 粗糙 的 ; 用 于 分 类 的 决策 区 
域 局 限于 超 和 矩形 ， 而 且 和 矩形 的 边 局 限于 和 输入 变量 坐标 轴 平 行 〈 参 考 图 5-3)。 

用 于 衡量 不 同 树 结构 质量 的 评分 函数 通常 是 误 分 类 损失 函数 ， 被 定义 为 : 


DC(y0,30)) (5.1) 
i=] 


其 中 CC(y(), HD) 是 因为 这 个 树 将 第 i 个 数据 向 量 的 分 类 标记 y(i) 预测 为 i) 而 导致 的 损失 
( 正 的 )。 一 般 地 ，C 是 由 mx 的 矩阵 确定 的 ， 其 中 m 是 分 类 的 数量 。 为 简单 起 见 ， 假 设 
当 (DD)# y(D 时 ， 损 失 为 L TUA 0。( 这 被 称 为 “0-1” 损 失 函 数 ， 或 者 如 果 再 进一步 将 
上 面 的 和 被 4 除 ， 那 么 便 得 到 误 分 类 率 。) 
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图 5-3 ”把 图 5-2 中 分 类 树 的 决策 边界 登 加 到 原始 数据 上 。 注 意 决 策 边 界 与 坐标 轴 的 平行 特征 


CART 使 用 一 种 被 称 为 交叉 验证 的 技术 来 估计 误 分 类 损失 函数 。 在 第 7 章 里 我 们 将 更 加 
详细 的 介绍 交叉 验证 。 简 单 来 讲 ， 这 种 方法 先 从 训练 数据 中 划分 出 一 个 子 集 用 于 建立 树 ， 然 
后 在 剩余 的 验证 子 集 里 估计 误 分 类 率 。 然 后 针对 不 同 的 子 集 多 次 重复 这 种 划分 ， 再 对 得 到 的 
误 分 类 率 进行 平均 从 而 得 到 关于 特定 大 小 的 树 对 于 新 的 未 见 过 数据 的 性 能 的 交叉 验证 估计 。 
产生 最 小 交叉 验证 误 分 类 估计 的 树 的 大 小 被 确定 为 最 终 树 模型 的 合适 大 小 。( 上 面 的 描述 概 
括 了 通过 交叉 验证 选择 树 的 关键 环节 ， 在 实践 中 这 个 过 程 会 更 复杂 一 些 。) 

交叉 验证 使 CART 可 以 估计 出 树 模型 对 于 在 构造 树 时 没有 使 用 过 的 数据 的 性 能 一 一 也 就 
是 ， 它 提供 了 一 种 对 泛 化 性 能 的 估计 。 这 在 增长 树 的 过 程 中 是 至 关 重要 的 ， 因 为 对 于 训练 数 
E (用 于 构造 树 的 数据 〉 的 误 分 类 率 ， 只 要 通过 提高 树 的 复杂 度 经 常 就 可 以 减 小 ， 因 此 ， 一 
个 分 类 树 对 于 训练 数据 的 误差 不 一 定 可 以 表示 出 这 个 树 对 新 数据 的 性 能 。 

图 5-4 利用 典型 误差 率 相对 树 大 小 的 假想 函数 曲线 说 明了 这 一 点 。 可 见 ， 对 于 训练 数据 ， 
误差 率 单调 下 降 。( 如 果 变 量 为 每 个 单独 类 的 数据 产生 一 个 叶子 ， 那 么 误差 率 将 下 降 为 零 )。 
对 于 新 的 数据 (通常 这 才 是 我 们 所 感 兴趣 的 希望 做 出 预测 的 数据 )， 测 试 误差 率 起 初 也 是 下 
降 。 这 是 因为 非常 小 的 树 〈 靠 左边 ) 没有 足够 的 预测 力 做 出 精确 的 预测 。 然 而 ， 与 训练 误差 
不 同 的 是 ， 测 试 误 差 到 了 “最 低 点 ”后 又 开始 上 升 ， 这 是 因为 算法 过 度 拟 合 了 数据 ， 增 加 节 
点 仅仅 预测 了 训练 数据 中 的 噪声 和 随机 波动 , 这 些 噪声 和 波动 和 预测 任务 并 不 相关 。 像 CART 
这 样 算法 的 目的 是 要 找到 与 最 佳 树 大 小 当然 事先 是 未 知 的 接近 的 树 。 它 试图 找到 一 个 足 
够 复杂 的 模型 以 捕捉 任何 存在 的 结构 ， 但 是 不 能 过 度 拟 合 。 对 于 少量 到 中 等 数量 的 数据 ， 最 
好 是 不 要 保留 用 以 估计 样本 外 误差 的 数据 。 对 于 非常 大 的 数据 集 ， 可 以 把 数据 划分 为 训练 和 
验证 数据 集 ， 然 后 在 验证 数据 集 上 监控 模型 的 性 能 。 

交叉 验证 评分 函数 的 使 用 将 CART 与 其 他 基于 树 模型 的 数据 挖掘 算法 区 分 开 来 。 例 如 ， 
C45 算法 〈 另 一 个 广泛 用 于 构建 分 类 树 的 可 以 代替 CART 的 算法 ) 通过 启发 式 地 调整 在 训 





© 


98 FSH 


练 数据 上 估计 出 的 误差 率 来 近似 测试 误差 率 〈 试 图 纠正 训练 误差 率 通常 低估 样本 外 误差 率 的 
事实 ) 以 判断 各 个 树 结构 .然后 在 修剪 阶段 使 用 调整 的 误差 率 以 找到 使 评分 函数 最 大 化 的 树 。 
误 分 类 误差 率 







对 测试 数据 的 误差 率 


对 训练 数据 的 误差 率 





树 的 复杂 度 


最 佳 的 树 大 小 
图 $-4 ” 误 分 类 误差 率 相对 树 复杂 度 〈 例 如 树 上 树叶 的 数目 ) 的 假想 函数 曲线 


CART 用 “ 贪 禁 ” 局 部 搜索 方法 来 确定 好 的 候选 树 结构 : 从 根 节点 递归 地 扩展 树 ， 然 后 
再 逐渐 地 “修剪 ” 掉 这 个 树 的 特定 分 枝 。 这 种 启发 式 的 搜索 方法 是 以 下 两 个 因素 共同 作用 的 
结果 :， 大 规模 的 搜索 空间 〈 例 如， 所 有 可 能 的 二 叉 树 结构 空间 ) 和 没有 任何 易 驾 驭 的 方法 可 
以 找到 唯一 的 最 优 树 〈 相 对 于 给 定 的 评分 函数 )。 在 树 学 习 中 的 一 名 流行 名 言 就 是 :“ 贪 禁 ” 
的 局 部 搜索 和 更 复杂 的 启发 式 方法 工作 的 几乎 一 样 好 ， 而 且 它 也 比 其 他 更 复杂 的 搜索 方法 要 
易于 实现 得 多 。 因 此 ,“ 贪 禁 ” 局 部 搜索 是 大 多 数 实际 树 学 习 算法 的 首选 方案 。 

在 数据 管理 方面 ，CART 隐 含 假定 数据 都 在 主 存 中 。 对 CART 来 说 这 也 是 很 正常 的 ， 因 
为 除了 数据 库 文献 之 外 ， 很 少 有 发 布 的 算法 为 大 规模 数据 集 的 数据 管理 提供 任何 明确 的 指 
导 。 对 于 有 些 算 法 ， 添 加 一 项 数据 管理 技术 是 很 容易 的 ， 可 以 以 模块 化 的 方式 完成 。 例 如 ， 
如 果 每 个 数据 点 只 需 被 访问 一 次 , 而 且 顺 序 是 无 关 紧要 的 , 那么 数据 管理 就 很 微不足道 了 (只 
需 顺序 的 将 数据 点 子 集 读 入 主 存 )。 

然而 对 于 树 算法 ， 模 型 、 评 分 函数 和 搜索 方法 的 复杂 程度 足以 使 数据 管理 很 不 简单 。 为 
了 说 明 为 何如 此 ， 回 忆 树 算法 是 以 数据 驱动 的 方式 不 断 地 将 各 个 观察 结果 数据 矩阵 的 行 ) 
分 割 成 小 的 数据 集 ， 这 要 求 我 们 不 断 地 在 数据 库 中 找到 观察 结果 的 不 同 子 集 并 且 确 定 这 些 子 


集 的 性 质 。 在 这 种 算法 的 朴素 实现 中 ， 对 于 超过 主 存 容量 的 数据 集 ， 会 导致 多 次 的 重复 扫描 


第 二 存储 器 中 的 数据 〈 例 如 磁盘 )， 从 而 导致 非常 差 的 时 间 性 能 。 最 近 已 经 开发 出 了 树 算法 
的 可 伸缩 版 本 ， 这 个 版 本 使 用 特殊 的 数据 结构 来 高 效 地 处 理 主 存储 器 外 的 数据 。 

下 面 总 结 一 下 我 们 关于 CART 的 介绍 ， 我 们 注意 到 这 种 算法 是 由 以 下 几 部 分 构成 的 : 
(1) 树 模 型 结构 ; (2) 交叉 验证 评分 函数 : G3) 对 树 结构 的 两 个 阶段 贪 丈 搜索 (“增长 ”和 
“修剪 ”)。 由 此 看 出 ， 一 旦 掌握 了 CART 的 核心 思想 ， 这 个 算法 还 是 很 容易 理解 的 。 显 然 ， 
我 们 可 以 使 用 相同 的 树 结构 、 交 叉 验证 评分 函数 和 搜索 技术 开发 出 与 CART 本 质 相似 的 其 他 
算法 ， 只 是 在 实现 细节 上 是 针对 具体 应 用 的 《例如 如 何 处 理 训练 和 预测 过 程 中 的 残缺 数据 )。 
对 于 给 定 的 数据 挖掘 应 用 ， 按 这 种 方式 定制 算法 是 很 有 必要 的 。 总 而 言 之 ， 像 CART 这 样 的 
算法 的 强大 之 处 在 于 它 所 体现 的 基本 思想 ， 而 不 是 实现 的 具体 细节 。 
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5.3 数据 挖掘 算法 的 化 约 主义 观点 


根据 本 章 的 基本 口诀 ， 一 旦 我 们 有 了 数据 集 和 明确 的 数据 挖掘 任务 ， 那 么 数据 挖掘 算法 
就 可 以 认为 是 由 {模型 结构 、 评 分 函数 、 搜 索 方法 、 数 据 管 理 技术 } 构 成 的 “组 合 (tuple)”。 
尽管 这 看 上 去 很 简单 ， 但 是 其 中 有 相当 丰富 的 内 涵 。 首 先 ， 我 们 能 构造 的 算法 数量 是 相当 大 
的 。 只 需 把 不 同 的 模型 结构 和 不 同 的 评分 函数 、 搜 索 方 法 、 数 据 管 理 技术 组 合 起 来 ， 我 们 就 
能 生成 相当 大 数量 的 不 同 算法 (专业 的 研发 人 员 也 注意 到 了 这 一 点 )。 

然而 ， 一 旦 我 们 意识 到 下 面 的 第 二 层 内 涵 ， 那 么 便 可 以 很 容易 地 处 理 “ 算 法 空间 ”的 复 
RET: 尽管 有 大 量 的 可 能 算法 ， 但 是 在 这 个 组 合 中 每 个 组 件 的 基本 “ 值 ”数量 是 相对 较 小 
的 。 特 别 地 ， 我 们 可 以 使 用 定义 完备 的 模型 和 模式 来 解决 像 回归 、 分 类 和 聚 类 这 样 的 问题 
我 们 在 第 6 章 中 将 详细 的 介绍 这 些 模型 。 类 似 地 ， 正 如 我 们 将 要 在 第 7 章 看 到 的 ， 具 有 广泛 
吸引 力 的 评分 函数 〔 例 如 ， 似 然 、 误 差 平方 和 、 错 误 分 类 率 ) 并 不 多 。 具 有 广泛 适用 性 的 搜 
索 和 优化 方法 也 是 较 少 的 ， 而 且 数 据 管 理 的 关键 原理 可 以 被 简化 为 数量 相当 少 的 几 种 不 同 技 
术 (分 别 在 第 8 章 和 第 12 章 讨论 )。 

许多 著名 的 数据 挖掘 算法 都 是 由 定义 完备 的 组 件 构成 的 。 换 句 话说， 各 种 算法 趋向 于 比 
较 紧凑 地 聚集 在 “算法 空间 ”( 由 模型 结构 、 评 分 函数 、 搜 索 方法 及 数据 管理 技术 这 些 “ 维 ” 
所 组 成 的 空间 ) P. 

在 实践 中 ， 数 据 控 掘 算法 的 化 约 主义 〈reductionist) (也 就 是 ， 基 于 组 件 的 ) 观点 是 非 
常 有 用 的 。 它 通过 把 算法 分 解 为 一 些 核心 组 件 阐明 了 特定 算法 潜在 的 机 制 。 这 也 使 得 比较 不 
同 的 算法 变 得 很 容易 ， 因 为 我 们 能 够 从 组 件 层 清 楚 地 看 出 相似 点 和 不 同 点 《〈 例 如， 我 们 可 以 
根据 它们 所 使 用 的 评分 函数 来 比较 CART 算法 和 C4.5 算法 )。 

更 重要 的 是 ， 这 个 观点 强调 了 算法 的 基本 性 质 ， 而 不 是 通常 的 从 算法 列表 角度 来 考虑 。 
当面 对 -个 数据 挖掘 应 用 时 ， 一 个 数据 挖掘 者 应 当 考 虑 的 是 哪些 组 件 更 适合 他 的 要 求 ， 而 不 
应 考虑 选取 哪个 现成 的 算法 。 在 理想 的 情况 下 ， 数 据 挖掘 者 应 拥有 一 个 软件 环境 ， 针 对 他 们 
的 特定 应 用 编选 组 件 〈 从 模型 结构 、 评 分 函数 、 搜 索 方法 等 的 库 里 选取 ) 以 合成 算法 。 不 幸 
的 是 ， 这 还 只 是 一 种 理想 的 情况 ， 而 不 是 实际 的 规范 。 目 前 的 数据 分 析 软 件 包 经 常 仅 提供 一 
个 算法 的 列表 ， 而 不 是 一 个 基于 用 来 合成 算法 的 组 件 的 工具 箱 。 考 虑 到 为 没有 技术 背景 和 时 
间 从 组 件 层次 理解 算法 潜在 细节 的 数据 挖掘 者 提供 可 用 的 工具 ， 这 也 是 可 以 理解 的 。 然 而 对 
于 希望 定制 和 合成 面向 问题 的 算法 的 熟练 的 操作 人 员 来 讲 这 就 不 够 理想 了 。“ 菜 谱 ” 方 法 
(cookbook method) 也 是 多 少 有 些 危险 的 ， 因 为 数据 控 掘 工具 的 初级 使 用 者 可 能 不 能 够 完 
全 理解 他 们 所 使 用 的 黑 盒 子 算法 的 限制 (及 潜在 的 假定 )。 与 此 相反 ， 基 于 组 件 的 描述 使 得 
黑 盒子 里 的 东西 更 为 清晰 。 

为 了 描述 化 约 主义 观点 的 一 般 应 用 ， 在 下 面 三 小 节 里 我 们 将 从 组 件 的 角度 分 析 三 个 著名 
的 算法 。 在 第 9 章 到 第 14 章 里 我 们 将 更 加 详细 的 阐述 这 些 算法 和 与 之 有 关 的 算法 ， 在 那里 
我 们 针对 不 同 的 数据 挖掘 任务 讨论 了 更 完整 的 解决 方案 。 


5.3.1 用 于 回归 和 分 类 的 多 层 感知 器 


在 一 般 的 人 工 神经 网 络 模型 中 ， 前 馈 多 层 感知 器 (MLP 是 应 用 最 广泛 的 模型 。MLP 
结构 提供 了 从 实数 的 输入 向 量 x 到 实数 的 输出 向 量 y 的 非 线性 映射 。 因 此 ，MLP 可 以 用 作 
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回归 问题 的 非 线性 模型 ， 也 可 以 通过 对 输出 数据 作出 恰当 的 解释 来 用 于 分 类 。 MLP 的 基本 
思想 是 ， 一 个 p 个 输入 值 的 向 量 被 乘 以 一 个 pxdi 的 权 撼 阵 ， 得 到 的 di 个 值 中 的 每 一 个 分 
别 经 过 一 个 非 线 性 变换 得 到 ai 个 “隐藏 节点 ”的 输出 。 然 后 把 得 到 的 四 个 值 再 乘 以 一 个 
dxd 的 加 权 和 矩阵 ( 另 一 “ 层 ” 权 ),， 然后 把 得 到 的 ds 个 值 中 的 每 一 个 再 经 一 层 非 线性 变换 。 
变换 后 得 到 的 qd, 个 值 可 以 作为 模型 的 输出 结果 ， 也 可 以 再 做 一 层 加 权 乘 法 及 非 线 性 变换 ， 
等 等 (所 以 称 这 种 模型 是 “多 层 ” 的 ， 术 语 “ 感 知 器 ” 指 的 是 20 世纪 60 年 代 提 出 这 种 形式 
时 的 最 初 模型 ， 它 包括 一 个 加 权 层 和 一 个 非 线性 阐 值 )。 

作为 例子 ， 考 虑 图 5-5 中 有 一 个 “隐藏 ” 层 的 简单 网 络 模型 。 经 第 一 层 加 权 (w 和 及) 


计算 两 个 内 积 m =D an 和 s2 = 加 4 Bix; ， 然 后 对 每 一 个 在 隐藏 节点 上 经 一 次 非 线性 变 
换 后 产生 两 个 标量 值 ， 记 和 加 。 在 隐藏 节点 ， 广 泛 使 用 的 是 非 线性 逻辑 函数 ， 也 就 是 
加 =h(s1)=1/l+e 5)。 接 下 来 ， 肌 和 所 被 加 权 并 组 合 得 到 结果 y= DO wih; 《原则 上 我 
们 还 可 以 对 y 做 一 次 非 线性 变换 )。 因 此 ，y 是 一 个 关于 输入 向 量 x 的 非 线性 函数 。 可 以 把 
看 作 是 四 维 输入 的 非 线性 变换 ， 两 个 “ 基 函 数 ”及 和 各 的 集合 。 对 于 这 个 模型 来 说 ， 要 从 
数据 中 估计 的 参数 有 输入 层 上 的 八 个 权 值 (ou,… a Bi By) 和 输出 层 上 的 两 个 权 值 wi 
和 wa )。 一 般 地 ， 如 果 有 p 个 输入 ， 一 个 有 有 个 隐藏 节点 的 隐藏 层 ， 一 个 输出 ， 那 么 总 共 就 
有 (P+ 1 六 个 参数 需要 从 数据 中 估计 。 通 常 ， 我 们 可 以 做 多 层 这 样 的 加 权 乘 法 和 非 线性 变换 ， 


但 通常 我 们 只 用 一 个 隐藏 层 ， 因 为 多 层 网 络 的 训练 速度 比较 慢 。MLP 的 权 是 模型 的 参数 ， 
必须 由 数据 来 确定 。 








图 5-5 一 个 简单 的 多 层 感知 器 〔 或 者 说 神经 网 络 ， 模 型 。 这 个 网 
络 有 两 个 隐藏 节点 (d = 2) 和 唯一 的 输出 节点 (4 =1) 


注意 到 ， 如 果 输 出 结果 y 是 一 个 标量 y ( 即 d, =1) 并 且 介 于 0 到 1 之 间 《我 们 可 以 
从 上 一 层 的 加 权 值 里 选择 一 个 非 线 性 变换 来 保证 这 个 条 件 )， 对 于 二 分 类 的 问题 ， 可 以 使 用 
y 做 类 隶属 关系 的 指示 变量 ， 并 用 阔 值 〈 举 例 来 说 ) 0.5 来 决定 是 属于 第 1 类 还 是 第 2 类 。 
因此 可 以 很 方便 地 使 用 MLP 来 解决 分 类 和 回归 问题 。 由 于 模型 的 非 线 性 性 质 ， 由 网 络 模型 
生成 的 不 同类 之 间 的 决策 边界 也 可 能 是 高 度 非 线 性 的 。 图 5-6 给 出 了 这 样 的 一 个 决策 边界 的 
例子 。 注 意 到 ， 与 图 5-3 中 分 类 树 生 成 的 边界 相 比 ， 这 里 的 边界 是 高 度 非 线性 的 ， 然 而 ， 和 
图 5-2 中 的 决策 树 不 同 ， 不 存在 一 种 简单 的 总 结 形式 来 描述 神经 网 络 模型 的 运作 方式 。 

根据 化 约 主义 观点 ， 可 以 把 MLP 学 习 算法 归纳 为 以 下 “算法 组 件 ” 的 组 合 : 

1. 任务 = 预测 : 分 类 或 回归 

2. 结构 = 输入 数据 加 权 和 的 多 层 非 线性 变换 


RECESS 101 


3. RPGR = 误差 平方 和 

4， 搜 过 方法 = 从 随机 选取 的 初始 参数 值 开始 的 最 陡峭 下 降 

5. 数据 管理 技术 = 在 线 或 分 批 处 理 

这 个 算法 最 显著 的 特点 是 模型 结构 的 多 层 非 线性 性 〈 注 意 到 ， 不 但 输出 结果 y 是 关于 输 
入 数据 的 非 线性 函数 ， 而 且 参数 0 OL) 在 评分 函数 里 也 是 非 线性 的 )。 这 使 神经 网 络 明显 
不 同 于 传统 的 线性 和 多 项 式 形式 的 回归 方法 以 及 基于 树 模型 的 分 类 方法 。 
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图 5-6 ”神经 网 络 模型 产生 的 决策 边界 例子 。 对 应 的 数据 为 图 5-19 中 有 关 酒 的 二 维 数据 
MLP 中 使 用 最 广泛 的 评分 函数 是 误差 平方 和 (SSE)， 其 定义 如 下 : 


Ssse = > (yO - SOP (5.2) 


其 中 y(i) AMID PHBA i 个 数据 点 真实 的 目标 值 和 网 络 的 输出 结果 ， 其 中 3(i) 是 关于 输入 
HE xG) 和 MLP 的 参数 AL) 6 的 函数 。 有 人 认为 误差 平方 和 是 唯一 可 用 于 神经 网 络 
模型 的 评分 函数 。 事 实 上 ， 只 要 是 关于 模型 参数 的 可 微 函 数 〈 使 我 们 可 以 确定 最 陡峭 下 降 的 
方向 )， 那 么 任何 评分 函数 都 可 以 用 做 最 陡峭 下 降 搜 索 方法 〈 例 如 反 向 传播 ) 的 基础 。 举 例 
来 说 ， 如 果 我 们 把 误差 平方 和 看 作 是 更 一 般 的 对 数 似 然 函 数 〈 参 见 第 4 章 的 讨论 ) 的 一 种 特 
例 ， 那 么 我 们 就 可 以 根据 具体 应 用 使 用 大 量 的 其 他 基于 似 然 的 评分 函数 来 代替 误差 平方 。 
训练 神经 网 络 就 是 把 Ss 看 作 是 未 知 参 数 9 的 函数 ， 使 其 最 小 化 也 就 是 通过 给 定数 据 
来 估计 参数 9)。 如 果 每 个 HD) 通常 是 关于 参数 6 的 高 度 非 线性 函数 ， 那 么 评分 函数 8ss 也 
是 关于 9 的 高 度 非 线性 函数 。 所 以 ， 对 于 MLP 来 说 不 存在 可 以 使 Ssss 最 小 化 的 参数 9 的 闭 
合 形式 解 。 此 外 ， 因 为 在 Sssg 关于 9 的 函数 曲面 上 存在 很 多 局 部 最 小 值 ， 所 以 很 多 情况 下 
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训练 神经 网 络 〈 即 ， 对 特定 的 数据 集 和 模型 结构 求 出 使 9ysx 最 小 化 的 参数 ) 都 是 一 种 非 平 
凡 〈nonrtrivial) 的 多 元 优化 问题 。 要 找到 满意 的 局 部 最 小 值 需要 迭代 的 局 部 搜索 技术 。 

最 初 为 MLP 提出 的 训练 方法 被 称 为 反 向 传播 ， 这 是 一 种 相当 简单 的 优化 方法 。 它 实质 
上 是 在 参数 空间 里 对 评分 函数 (误差 平方 和 ) 进行 最 陡峭 下 降 ， 也 就 是 通过 从 参数 空间 中 随 
机 选取 的 起 始点 下 降 到 一 个 局 部 最 小 值 来 解决 这 种 非 线性 优化 问题 。( 实 际 应 用 中 ， 我 们 通 
常 从 多 个 起 始点 下 降 ， 并 从 找到 的 所 有 最 小 值 中 选择 最 好 的 。) 在 更 一 般 的 框架 下 ， 有 很 大 
一 族 优化 方法 可 以 求解 这 样 的 非 线性 优化 问题 。 很 多 时 候 ， 最 陡峭 下 降 被 认为 是 训练 MLP 
的 唯一 可 用 优化 方法 ， 但 事实 上 像 共 轿 梯度 这 样 更 强大 的 非 线 性 优化 技术 也 可 以 用 来 解决 这 
一 问题 。 第 8 章 中 我 们 将 讨论 这 些 技术 中 的 一 部 分 。 

从 数据 管理 角度 说 ， 可 以 使 用 在 线 方式 (基于 一 次 一 个 数据 点 的 循环 更 新 权 〉 也 可 以 使 
用 批 处 理 方式 (观察 所 有 数据 点 后 再 更 新 权 〉 来 训练 神经 网 络 。 这 种 算法 的 在 线 更 新 版 本 是 
在 线 估计 算法 的 一 种 特例 (第 8 章 中 进一步 讨论 了 使 用 这 种 算法 时 涉及 的 折 表 问题 )。 

MLP 与 分 类 树 的 一 个 重要 的 实际 差别 是 树 算法 (例如 CART) 以 相对 自动 的 方式 搜索 
不 同 复杂 度 的 模型 (例如 ， 找 到 一 个 大 小 合适 的 树 是 CART 算法 的 基本 功能 )。 相 反 ， 尚 没 
有 一 种 被 广泛 接受 的 方法 可 以 用 来 确定 MLP 的 合适 结构 (也 就 是 决定 模型 中 应 有 多 少 层 及 
多 少 个 隐藏 节点 )。 现 在 有 许多 算法 可 以 自动 构造 网 络 ， 包 括 从 一 个 小 网 络 开 始 ， 逐 步 增加 
节点 和 权 的 方法 ， 以 及 从 一 个 大 网 络 开始 逐步 修剪 权 和 不 相关 的 节点 。 逐 步 增加 能 承受 局 部 
最 小 值 问题 的 网 络 结构 〈 具 有 大 个 隐藏 节点 的 最 好 网 络 可 能 与 具有 上 -1 个 隐藏 节点 的 最 好 网 
络 在 参数 空间 里 差异 非常 大 )。 另 一 方面 ， 训 练 一 个 过 大 的 网 络 的 开销 可 能 是 非常 惊人 的 ， 
特别 是 当 模 型 结构 很 大 时 〔 例 如 ， 输 入 维度 p 很 大 )。 实 际 应 用 中 ， 网 络 结构 通常 是 由 反复 
的 “试验 -误差 ”过 程 确 定 的 ， 即 手工 调整 隐藏 节点 的 数目 直到 在 验证 数据 集 (一 组 没有 用 
于 训练 的 数据 点 ) 上 达到 令 人 满意 的 性 能 。 

对 MLP 的 基于 组 件 分 析 说 明 它 的 一 般 步骤 并 没有 与 更 传统 的 统计 估计 和 优化 技术 相差 
太 远 。 许 多 这 样 的 技术 〈 例 如 ， 将 贝 叶 斯 先 验 结合 到 评分 函数 使 很 小 的 权 变 为 0 (使 模型 “ 规 
格 化 ”)， 或 者 在 搜索 权 期 间 使 用 更 复杂 的 像 共 思 M 梯 度 技术 这 样 的 多 元 优化 方法 〉 都 可 以 用 于 
训练 网 络 模型 。20 世纪 80 年 代 ， 当 神经 网 络 刚刚 面世 的 时 候 ， 还 不 清楚 它 与 统计 学 的 联系 
(尽管 现在 回顾 起 来 那 是 非常 显然 的 )。 毫 无 疑问 ， 神 经 模型 方法 的 主要 贡献 在 于 模型 结构 
所 具有 的 非 线性 多 层 特 征 。 
5.3.2 ”关联 规则 学 习 的 A Priori 算法 

关联 规则 是 数据 挖掘 中 用 来 表示 局 部 模式 的 最 流行 方法 之 一 。 第 13 章 给 出 了 更 详细 的 
介绍 ， 这 里 只 勾画 一 下 它 的 一 般 思 想 并 从 构成 它 的 组 件 的 角度 简要 描述 一 种 通用 的 关联 规则 
算法 。( 这 里 的 介绍 大 体 上 是 基于 著名 的 A Priori 算法 一 一 寻找 关联 规则 的 最 早 算法 之 一 。) 

关联 规则 是 对 数据 库 中 的 某 些 特定 事件 一 起 发 生 的 概率 的 简单 陈述 ， 它 尤其 适用 于 稀 琉 
的 数据 集 。 为 简单 起 见 ， 假 设 所 有 变量 都 是 二 值 的 。 关 联 规则 具有 如 下 的 形式 : 

如 果 A=1 并 且 B=1 那么 C=1 的 概率 为 p (5.3) 

其 中 A，B，C 是 一 值 变量 ， 并 且 p =p(C=118=1，A=1)， 即 给 定 4=1 及 B=1 时 C=1 
的 条 件 概 率 。 条 件 概 率 p 有 时 被 称 为 规则 的 “精度 ”或 “置信 和 度 ”, p(C=1, B=1, A=) 
被 称 为 “支持 度 "。 这 种 模式 结构 或 者 说 规则 结构 是 非常 简单 而 且 是 可 以 解释 的 ， 这 是 这 种 
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方法 具有 广泛 吸引 力 的 原因 。 和 寻找 关联 规则 的 典型 目标 是 寻找 满足 以 下 约束 的 所 有 规则 : 置 
信和 度 p 大 于 某 个 立 值 ps， 支 持 度 大 于 某 个 阐 值 p, (例如 ， 找 到 满足 支持 度 大 于 0.05， 置 信和 度 
KF 0.8 的 所 有 规则 )。 这 些 规则 由 一 种 相对 较 弱 的 知识 形式 构成 ， 它 们 就 是 对 观察 数据 中 一 
起 出 现 的 模式 (co-occurrence pattems〉 的 简单 妇 纳 ， 而 不 是 能 刻画 出 整个 总 体 的 强 结 论 。 事 
实 上 ,“ 规 则 ”一 词 通常 暗示 了 一 种 因果 关系 (从 左 到 右 )， 因 此 严格 地 说 “关联 规则 ”这 个 
术语 用 词 并 不 十 分 合适 ， 因 为 这 些 模式 是 内 在 的 相互 关联 而 不 一 定 是 因果 关系 。 

挖掘 关联 规则 的 一 般 思想 最 早起 源 于 涉及 “购物 篮 数 据 ” 的 应 用 。 这 些 数据 通常 被 记录 
在 数据 库 中 ， 其 中 的 每 个 观察 就 是 一 篮 商品 (例如 各 种 生活 用 品 )， 每 个 变量 用 以 表明 是 否 
购买 菜 一 种 商品 。 我 们 可 以 把 这 种 类 型 的 数据 想像 为 一 个 行 (对 应 于 各 个 购物 锋 ) p 列 (对 
应 于 各 种 商品 》 的 数据 矩阵 。 这 样 的 矩阵 可 能 很 大 ，n ANAK, p 是 上 万 的 ， 而 且 一 般 
是 很 稀 朴 的 ， 因 为 典型 的 一 个 购物 篮 只 包含 几 种 商品 。 关 联 规 则 的 作用 是 提供 了 一 种 手段 ， 
以 一 种 相对 有 效 的 计算 方式 在 这 样 的 数据 中 找到 简单 的 模式 。 

按照 我 们 的 化 约 框架 ， 寻 找 关联 规则 的 典型 数据 挖掘 算法 包含 以 下 组 件 : 

1. 任务 = 描述 变量 之 间 的 关联 关系 

结构 = 用 概率 表示 的 “关联 规则 ”( 模式 ) 

3. 评分 函数 = 精确 度 和 支持 度 的 阅 值 

4. 搜索 方法 = 系统 搜索 ( 带 修剪 的 广度 优先 ) 

5. 数据 管理 技术 = 多 重 线性 扫描 

在 关联 规则 搜索 中 使 用 的 评分 函数 是 简单 的 二 择 一 函数 。 有 两 个 阔 值 : 户 是 规则 支持 度 
的 下 限 “〈 例 如 ， 当 我 们 仅 想 要 得 到 至 少 覆 盖 10% 的 数据 的 规则 时 便 令 p, = 0.1) 而 ps 是 规则 
的 置信 度 的 下 限 “〈 例 如 ， 当 我 们 仅 想 要 得 到 精度 不 低 于 90% 的 规则 时 便 令 ps,= 0.9)。 如 果 一 
个 模式 满足 了 两 个 阐 值 条 件 ， 那 么 它 的 得 分 为 1; 否则 得 分 为 0。 我 们 的 目标 是 要 找到 所 有 
得 分 为 1 的 规则 (模式 )。 

所 有 可 能 关联 规则 的 数量 是 指数 级 的 一 一 对 于 二 进 制 变量 如 果 我 们 限制 规则 的 左 侧 和 右 
侧 都 为 肯定 的 命题 (例如 ，A=1)， 那 么 也 就 是 O(p22-1) ， 因 此 这 个 搜索 问题 是 比较 复杂 的 。 
尽管 如 此 ， 利 用 评分 函数 性 质 的 优势 ， 我 们 还 是 可 以 将 算法 的 平均 运行 时 间 降 低 到 一 个 可 控 
的 范围 。 注 意 到 如 果 只 要 ph4 =1) < p, 和 p(B=1) < p, 二 者 中 有 一 个 成 立 , 那么 显然 p(4 = 
1，B = 1) 万 p,。 我 们 可 以 将 这 个 规律 应 用 到 关联 规则 搜索 中 ， 首 先 找到 概率 大 于 阐 值 p, 的 
所 有 单个 事件 (例如 A = 1) (这 只 需 对 整个 数据 库 做 一 次 线性 扫描 )。 如 果 一 个 事件 〈 或 一 
组 事件 ) 的 概率 大 于 支持 度 阔 值 p,， 那 么 就 称 其 为 “频繁 的 ”。 我 们 把 这 些 频 繁 事件 的 所 有 
可 能 对 (pairs) 作为 容量 为 2 的 候选 频繁 集 。 

在 更 一 般 的 情况 下 ， 也 就 是 当 从 容量 为 上 - 1 的 频繁 集 生成 容量 为 上 的 频繁 集 时 ， 我 们 
可 以 剪除 任何 容量 为 k 的 集合 ， 只 要 它 包 含 一 个 上 - 1 项 的 子 集 ， 而 且 这 个 子 集 本 身 在 k- 1 
级 是 不 频繁 的 。 例 如 ， 如 果 我 们 只 有 频繁 项 集 {4 = 1, B=1} 及 {8 = 1 C = 1}， 那 么 可 以 将 它 
们 组 合 为 容量 为 3 的 频繁 项 集 {A = 1, B = 1, C = 1}。 如 果 {4 = 1, C= 1} 这 个 子 集 是 不 频繁 的 
( 即 这 一 项 不 在 容量 k = 2 的 频繁 集 列表 中 )， 那 么 [4 = 1, B = 1, C = 1} 也 是 不 频繁 的 ， 因 此 
完全 可 以 把 它 剪除， 注意 到 这 种 修 双 可 以 在 不 直接 搜索 数据 的 情况 下 进行 ， 对 于 大 数据 第 来 
说 ， 这 可 以 大 大 提高 计算 速度 。 

确定 了 修剪 后 的 容量 为 上 的 候选 频繁 集 列表 后 ， 算 法 对 数据 库 再 执行 一 次 线性 扫描 以 确 
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定 哪些 集合 确实 是 频繁 的 。 然 后 把 确认 后 的 容量 为 的 频繁 集 (如果 存在 ) 进行 组 合 ， 以 生 


成 所 有 可 能 的 含有 k+1 个 事件 的 频繁 集 ， 随 后 再 进行 修剪 ， 然 后 再 对 数据 库 进 行 扫描 ， 等 
等 一 一 直到 再 也 无 法 生成 频繁 集 。( 在 最 坏 的 情况 下 ， 所 有 可 能 的 事件 集合 都 是 频繁 的 ， 因 
而 算法 执行 需要 指数 级 的 时 间 。 然 而 ， 因 为 实际 中 这 些 算 法 要 处 理 的 交易 数据 集中 的 数据 都 
是 非常 稀疏 的 ， 最 大 的 频繁 项 集 的 容量 通常 是 非常 小 的 《相对 于 n RB, BDA T R 
大 的 支持 度 来 说 是 这 样 的 .) 然后 算法 用 已 经 找到 的 所 有 频繁 集 对 数据 集 再 做 最 后 一 次 线性 
扫描 。 这 决定 了 频繁 集 的 哪些 子 集 组 合 表达 为 规则 后 也 满足 置信 度 阐 值 ， 然 后 返回 对 应 的 天 
联 规则 。 

关联 规则 算法 中 有 很 多 有 趣 的 数据 挖掘 算法 ， 在 这 些 算 法 中 搜索 和 数据 管理 组 件 是 它们 的 最 
关键 部 分 。 特 别 地 ， 关 联 规 则 使 用 广度 优先 、 一 般 到 特殊 的 系统 搜索 方法 ， 以 尽 可 能 使 对 数据 库 
的 线性 扫描 次 数 达 到 最 小 。 尽 管 在 机 器 学 习 文献 中 还 有 很 多 其 他 的 规则 发 现 算法 〈 具 有 类 似 的 基 
于 规则 表示 )， 但 是 关联 规则 算法 是 特别 为 大 规模 数据 集 设计 的 一 种 相当 高 效 的 算法 。 举 例 来 说 ， 
关于 关联 规则 算法 的 研究 报告 往往 强调 的 是 计算 效率 ， 而 不 是 对 算法 产生 规则 的 解释 。 


5.3.3 ”检索 文本 的 向 量 空间 算法 


可 以 把 一 般 的 根据 内 容 检索 任务 大 体 描述 为 : 对 于 一 个 查询 对 象 及 一 个 庞大 的 对 象 数据 
库 ， 我 们 要 在 数据 库 中 找到 与 查询 对 象 最 相似 的 上 个 对 象 。 我 们 对 在 线 文本 搜索 中 的 这 种 问 
题 都 很 熟悉 。 例 如 ， 我 们 的 查询 可 能 是 一 个 很 小 的 关键 词 集合 ,“ 数 据 库 ” 对 应 于 非常 庞大 
的 网 页 集合 。 这 时 我 们 的 任务 是 要 找到 与 关键 词 最 相关 的 网 页 。 

第 14 章 将 进一步 讨论 这 个 检索 任务 。 这 里 我 们 只 从 组 件 的 角度 探讨 一 下 一 般 的 文本 检 
索 算法 。 这 个 任务 的 最 重要 问题 之 一 就 是 如 何 定义 相似 性 。 文 本 文档 的 长 度 和 结构 都 是 不 一 
样 的 。 我 们 怎样 才能 比较 如 此 变化 各 异 的 文档 昵 ? 文本 检索 的 一 个 关键 思想 是 将 所 有 文档 简 
化 为 如 下 所 述 的 统一 向 量 表示 。 令 二， “o Dp 个 项 (单词 ， 短 语 等 等 )， 我 们 可 以 把 它们 
看 作 变 量 ， 或 数据 矩阵 中 的 列 。 并 把 文档 数据 矩阵 中 的 一 行 〉 表 示 为 分 量 数 为 p HAE, 
其 中 第 i 个 分 量 包 含 了 项 出 现在 文档 中 的 次 数 。 就 像 购物 篮 数据 一 样 ， 实 际 应 用 中 ， 我 们 
会 得 到 非常 庞大 的 数据 矩阵 a 为 百 万 级 ，p 为 万 级 )， 但 却 非常 稀疏 大 多 数 文档 向 量 都 有 
非常 多 的 零 )。 当 然 ， 我 们 不 会 真 的 存储 一 个 这 么 大 的 nxp 矩阵 : 一 个 更 为 有 效 的 办 法 是 为 
每 个 项 建 一 个 文档 链表 ， 列 表 中 是 所 有 包含 二 的 文档 。 

确定 了 这 样 的 “向 量 空间 ”表示 ， 接 下 来 就 可 以 很 容易 地 定义 相似 性 了 。 一 种 简单 的 定 
义 就 是 把 相似 距离 定义 为 p 维 空间 中 两 个 向 量 之 间 的 夹 角 。 这 种 角度 衡量 了 “项 空间 ”中 给 
定 方向 上 的 相似 性 ， 而 且 排 除了 大 文档 中 出 现 一 个 词 的 概率 要 大 于 小 文档 所 导致 的 差异 。 向 
量 空间 表示 和 相似 性 的 角度 尺度 似乎 比较 粗糙 ， 但 在 实践 中 这 样 的 方法 效果 非常 好 ， 而 且 在 
文本 检索 中 基于 这 种 基本 模式 的 变 体 非常 多 。 

有 了 如 上 信息 ， 我 们 就 可 以 定义 简单 文本 检索 算法 的 各 个 组 件 了 ， 假 设 算法 的 目标 是 寻 
找 与 一 篇 文档 最 相似 的 大 篇 文档 

1. 任务 = 在 数据 库 中 检索 大 篇 与 给 定 查询 最 相似 的 文档 
.表示 法 = 项 出 现 向 量 
.评分 函数 = 两 个 向 量 之 间 的 类 角 
.搜索 方法 = 多 种 技术 
.数据 管理 技术 = 多 种 快速 索引 策略 
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对 于 上 面 给 出 的 组 件 定义 ， 还 有 许多 不 同 的 定义 方法 。 例 如 ， 在 定义 评分 函数 时 ， 我 们 
可 以 定义 比 角度 函数 更 具 一 般 性 的 相似 尺度 。 在 指定 搜索 方法 时 ， 可 以 使 用 很 多 不 同 的 启发 
式 搜索 技术 。 注 意 在 这 种 背景 下 的 搜索 是 一 种 实时 搜索 (real-time search)， 因 为 算法 不 得 不 
为 用 户 实时 地 检索 模式 〈 与 前 面 讨论 的 数据 挖掘 算法 不 同 ， 那 些 搜 索 是 离线 搜索 最 优 的 参数 
和 模型 结构 )。 

不 同 的 应 用 可 能 需要 在 检索 算法 中 使 用 不 同 的 组 件 。 例 如 ， 在 搜索 法 律 文档 时 ， 缺 少 某 
些 特定 项 是 值得 注意 的 ， 因 此 我 们 可 能 希望 在 评分 函数 定义 中 反映 出 这 一 点 。 换 一 种 情况 ， 
我 们 可 能 希望 相反 的 效果 ， 即 不 太 重 视 两 个 文档 中 不 含有 特定 项 的 事实 〈 更 重视 两 篇 文档 中 
都 出 现 的 项 )。 

显而易见 ， 模 型 表示 是 这 里 的 关键 思想 。 一 旦 使 用 的 向 量 表示 已 经 建立 起 来 ， 那 么 就 可 
以 在 向 量 空 间 中 定义 各 种 各 样 的 相似 尺度 了 ， 然 后 使 用 标准 的 搜索 和 索引 技术 在 稀疏 的 p 维 
室 间 中 搜索 相 邻 对 象 。 不 同 检索 算法 的 评分 函数 和 搜索 方法 在 细节 上 会 有 所 不 同 ， 但 大 多 都 
是 基于 同样 的 数据 向 量 表示 。 如 果 要 为 文档 定义 一 种 不 同 的 表示 《比如 基于 某 种 语法 形式 为 
数据 定义 产生 式 (generative) 模型 )， 那 么 就 不 得 不 使 用 完全 不 同 的 评分 函数 和 搜索 方法 了 。 


5.4 讨论 


无 论 对 于 新 手 还 是 经 验 丰富 的 研究 人 员 ， 漫 步 在 数据 挖掘 算法 的 丛林 里 总 是 多 少 有 些 转 
惑 的 。 我 们 希望 本 章 中 介绍 的 基于 组 件 观 点 能 为 读者 提供 一 个 评估 算法 的 有 效 的 工具 。 过 程 
如 下 : 首先 尽 可 能 拿 掉 只 有 研究 报告 和 产品 说 明 才 需要 的 行 话 和 行销 套话 ， 然 后 把 算法 精简 
为 它 的 基本 组 件 。 基 于 组 件 的 描述 为 比较 算法 奠定 了 定义 完备 的 “标准 ”框架 结构 一 一 我 们 
可 以 把 新 算法 与 其 他 著名 的 算法 进行 比较 ， 如 果 它 们 是 不 同 的 ， 那 么 可 以 从 组 件 的 角度 清晰 
的 看 出 它们 的 差异 。 

有 趣 的 是 不 同 的 研究 团体 关注 的 数据 控 据 算法 的 侧重 点 是 不 同 的 。 大 多 数 统计 学 刊物 都 
力图 展示 出 大 量 的 公式 用 来 确定 模型 、 评 分 函数 和 计算 方法 ， 很 少 有 关于 如 何 将 模型 更 好 地 
应 用 到 实践 中 的 详细 算法 说 明 。 相 反 ， 有 关机 器 学 习 和 模式 识别 的 计算 机 刊物 经 常 强调 计算 
方法 和 算法 ， 很 少 强调 模型 的 结构 和 与 之 配套 的 评分 函数 是 否 合适 。 举 例 来 说 ， 对 各 种 算法 
所 做 的 试验 性 比较 并 不 少见 ， 但 比较 内 在 模型 或 评分 函数 的 却 很 少 。 对 于 数据 挖掘 来 说 ， 以 
上 两 个 研究 领域 的 不 同 侧重 点 导致 在 数据 挖掘 领域 中 形成 了 两 种 完全 不 同 的 方法 论 〈 而 且 经 
常 是 相反 的 )。 统 计 方法 经 常 非常 强调 推理 过 程 的 理论 性 〈 例 如 ， 参 数 估计 和 模型 选择 )， 很 
少 突出 计算 问题 。 面 向 数据 挖掘 的 计算 机 科学 方法 往往 相反 ,更 注重 高 效 的 搜索 和 数据 管理 ， 
不 太 关心 模型 〈 或 模式 ) 结构 是 否 合适 或 评分 函数 是 否 贴切 。 在 阅读 本 书 的 整个 过 程 中 ， 很 
有 必要 留意 这 种 “思想 方法 ”的 不 同 ， 这 有 助 于 理解 在 这 两 个 研究 团体 内 推动 特定 模型 、 推 
理 方法 和 算法 发 展 的 因素 。 

无 论 是 统计 学 还 是 计算 机 科学 ， 可 以 说 ， 具 有 代表 性 的 一 些 研究 论文 对 特定 算法 内 在 组 
件 的 说 明 都 不 是 非常 清晰 。 文 献 里 充满 了 各 种 不 同 算法 的 奇特 名 字 和 缩写 。 在 许多 论文 里 ， 
有 关 模型 结构 、 评 分 函数 和 搜索 方法 的 描述 完全 纠缠 在 一 起 。 

在 实践 中 ， 一 个 数据 挖掘 算法 的 所 有 组 件 都 是 至 关 重 要 的 。 模 型 、 评 分 函数 和 计算 实现 
等 方面 的 相对 重要 性 会 随 着 问题 的 不 同 而 有 所 不 同 。 对 于 小 的 数据 集 来 说 ， 模 型 的 解释 和 预 
测 能 力 可 能 (相对 地 说 ) 要 比 计算 因素 重要 的 多 。 然 而 ， 随 着 数据 集 的 增 大 《无 论 是 测量 数 
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量 还 是 变量 数量 )， 那 么 计算 的 作用 就 变 得 越 来 越 重要 了 。 例 如 一 个 时 间 复 杂 度 为 O(n”) 的 聚 
类 算法 在 4 = 100 时 是 容易 驾驭 的 ， 但 当 半 = 108 时 就 完全 驾驭 不 了 了 《很 可 能 在 我 们 终生 也 
解决 不 了 这 个 问题 ! )。 进 一 步 说 ， 时 间 复 杂 度 通常 都 是 按 所 有 数据 都 驻 留 在 内 存 的 假定 来 表 
述 的 。 如 果 算 法 的 每 一 个 计算 步骤 不 是 从 主 存 中 读 取 数 据 而 是 必须 从 磁盘 读 取 的 话 〈 打 个 比 
方 )， 那 么 在 时 间 复 杂 度 表达 式 中 就 不 得 不 考虑 额外 成 倍 的 固定 时 间 开销 。 

对 于 非常 庞大 的 数据 集 ， 必 须 在 建 模 的 完善 度 和 计算 开销 《例如 所 用 的 时 间 ) 之 间 进 行 
折衷 以 达到 某 种 拟 合 质量 。 对 于 海量 数据 集 ， 计 算 方 法 直接 影响 到 哪 一 类 型 模型 结构 能 拟 合 
数据 。 计 算 问题 在 数据 控 气 中 所 起 的 作用 要 比 在 传统 的 统计 建 模 中 大 的 多 。 

当然 ， 在 任何 数据 挖掘 问题 中 ， 模 型 结构 和 评分 函数 的 选择 都 要 慎重 并 且 确 认 清 楚 。 如 
果 返 回 的 模型 没有 用 的 话 ， 那 么 能 高 效 的 处 理 再 大 的 数据 集 也 是 没有 用 的 。 因 此 ， 数 据 挖掘 
者 必须 仔细 平衡 建立 精良 的 模型 或 模式 结构 与 找到 并 稳定 的 拟 合 这 样 的 结构 所 需 的 计算 资源 
这 两 方面 ， 寻 求 最 佳 的 折衷 方案 。 


55 ”补充 读物 


很 少 有 论文 把 对 数据 挖 据 算法 的 分 析 提 升 到 基于 组 件 的 系统 高 度 。Buntine, Fischer and 
Pressburger (1999) 是 个 例外 ， 他 们 就 如 何 从 高 层 算法 的 角度 实现 数据 挖掘 算法 的 快速 自动 
原型 给 出 了 一 些 有 趣 的 讨论 〈 含 例子 )。 关 于 一 般 算 法 的 经 典 教材 有 Cormen，Leiserson and 
Rivest (1990) 及 Knuth (1997). 

最 早 提出 CART 原理 的 是 Breiman et al. (1984), Quinlan (1993) 详细 的 描述 了 C4.5 
算法 。Buntine (1992) 以 及 Chipman, George and McCulloch (1998) 探讨 了 对 CART 的 贝 叶 
斯 扩展 。Crawford (1989) 介绍 了 以 增 量 方式 构造 分 类 树 的 方法 ，Gehrke et al. (1999) 介绍 
了 针对 大 规模 数据 集 的 可 伸缩 树 构 造 算法 的 有 关 概 念 。Ballard (1997) 是 一 篇 非常 易 民 的 入 
门 级 教材 ， 书 中 讨论 了 很 多 现代 神经 网 络 算法 和 这 些 算 法 与 真正 脑 模型 之 间 的 关系 。Geman， 
Bienenstock and Doursat (1992) 非常 精彩 的 讨论 了 统计 思想 和 神经 网 络 学 习 算法 之 间 的 关系 。 
Ripley (1996) 从 统计 学 的 观点 全 面 地 浏览 了 各 种 神经 网 络 算法 (第 5 章 ) 和 树 学 习 算 法 (第 
7 章 )， 而 Bishop (1995) 是 一 本 完全 从 统计 和 角度 讨论 神经 网 络 学 习 算法 的 教材 。 

Agrawal et al. (1996) 评论 了 各 种 关联 规则 算法 ， 并 深入 的 分 析 了 这 些 算法 的 搜索 方法 
和 效率 。Salton and McGill (1983) 对 信息 检索 作 了 很 有 价值 的 介绍 ; Witten, Moffatt and Bell 
(1999) 详细 全 面 地 讨论 了 用 于 大 规模 文本 和 图 像 数 据 库 的 检索 算法 所 涉及 的 各 种 问题 。 
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第 6 章 ”模型 和 模式 


6.1 概述 


在 前 面 的 章节 里 已 经 介绍 了 模型 和 模式 之 间 的 区 别 。 本 章 将 更 深入 地 探讨 这 些 概 念 ， 并 
考察 数据 挖 所 中 使 用 的 几 种 主要 类 型 的 模型 和 模式 ， 以 便 为 后 续 章 节 中 的 详细 分 析 做 准备 。 

模型 是 对 一 个 数据 集 的 高 层次 、 全 局 性 的 描述 。 它 通过 一 个 很 大 的 样本 透视 总 体 。 模 型 
可 以 是 描述 性 的 一 一 以 方便 简洁 的 方式 归纳 数据 ， 也 可 以 是 推理 性 的 ， 允 许 对 数据 所 在 的 数 
据 总 体 或 者 可 能 的 未 来 数据 作出 某 些 论断 。 本 章 将 讨论 几 种 形式 的 模型 ， 例 如 线性 回归 模型 、 
混合 型 模型 以 及 马尔 可 夫 模 型 等 。 

而 模式 则 是 数据 的 局 部 特征 ， 或 许 只 支持 几 条 记录 或 者 几 个 变量 (或 二 者 兼 有 )。 一 个 
p 维 变量 空间 的 局 部 “结构 ”特征 ， 比 如 密度 分 布 函 数 的 最 频 值 (mode) (或 区 间 (gap)) 
或 者 回归 曲线 上 的 拐点 就 是 模式 的 例子 。 很 多 情况 下 模式 是 很 有 趣 的， 因为 它 描绘 了 与 数据 
一 般 行为 的 背离 ， 例 如 相关 度 特别 高 的 一 对 变量 、 某 些 变量 值 异 常 高 的 一 系列 项 、 对 于 某 些 
变量 总 是 具有 相同 值 的 一 组 记录 ， 等 等 。 同 模型 的 情况 一 样 ， 寻 找 模 式 的 目的 是 为 了 描述 或 
者 推理 。 诸 如 要 找 出 数据 库 中 那些 具有 有 异常 特征 的 数据 ， 或 者 要 预测 可 能 具有 异常 特征 的 未 
来 记录 。 模 式 的 具体 例子 如 脑 电 图 (EEG) 曲线 上 的 瞬时 波形 、 零 售 客户 经 常 购买 的 产品 的 
异常 组 合 以 及 半导体 生产 数据 数据 库 中 的 孤立 点 。 

数据 压缩 (data compression) 很 好 地 说 明了 模式 与 模型 的 概念 。 设 想 一 个 数据 发 送 器 了 
有 一 图 像 了 要 发 送 到 接受 器 R( 尽 管 这 里 以 图 像 为 例 ， 但 是 其 中 的 原理 对 于 不 是 图 像 的 数据 
集合 也 成 立 )。 有 两 种 主要 的 策略 : a) 传送 描述 图 像 1 所 有 像素 的 数据 :(b) 传送 图 像 的 
压缩 版 本 一 一 图 像 7 的 某 种 概括 。 数 据 挖掘 在 很 大 程度 上 对 应 于 第 二 种 途径 ， 实 现 压 缩 的 方 
法 要 么 是 把 原始 数据 表示 为 一 个 模型 ， 要 么 是 通过 模式 标识 出 数据 的 异常 特征 。 

在 建 模 中 ， 当 概括 数据 时 很 可 能 导致 某 种 数据 失真 一 一 这 意味 着 数据 接受 器 将 无 法 准确 地 
重建 这 些 数据 。 下 面 考虑 一 个 对 图 像 数据 建 模 的 例子 一 一 用 原始 图 像 上 每 个 16X 16 像素 方块 中 
所 有 像素 值 的 平均 数 来 代替 这 个 方块 。 这 种 情况 下 的 模型 就 是 一 组 更 小 的 、 分 辨 率 更 低 1/16) 
的 图 像 。 一 种 更 复杂 的 模型 是 把 图 像 分 割 成 一 个 个 大 小 、 形 状 不 同 的 局 部 图 像 。 这 些 区 域内 像 
素 的 像素 值 可 以 用 区 域内 的 一 个 像素 强度 常量 来 相当 准确 的 描述 。 这 种 情况 下 的 模型 〈 或 信息 ) 
就 是 每 个 图 像 区 域 由 的 常量 值 和 每 个 区 域 边 缘 的 描述 。 很 显然 ， 对 于 每 一 种 模型 〈 平 均 像素 模 
型 和 局 部 常量 模型 )， 都 可 以 把 图 像 模 型 的 复杂 度 (被 平均 的 像素 数目 ， 局 部 不 变 区 域 的 平均 大 
小 ) 当 作 被 传送 的 信息 量 〈 同 样 也 可 视 为 传送 过 程 中 丢失 的 信息 量 ， 即 压缩 率 )。 

从 模式 探测 的 角度 来 看 ， 图 像 的 模式 是 图 像 中 的 一 些 结构 ， 它 们 纯粹 是 局 部 性 的 : 例如 ， 
图 像 左上 和 角 的 一 个 部 分 模糊 的 圆 形 物体 。 很 明显 相对 于 上 述 全 局 性 的 压缩 模型 来 说 ， 这 是 完全 
不 同 的 压缩 方式 。 接 受 器 不 再 重建 整个 图 像 的 数据 概括 ， 但 它 的 确 要 对 图 像 的 某 些 局 部 进行 措 
述 。 视 问题 和 目标 情况 的 不 同 ， 局 部 结构 有 时 比 全 局 模型 更 适合 。 数 据 发 送 器 7 并 不 传送 对 大 
量 吐 杂 的 像素 值 的 概括 模型 描述 ， 而 是 把 接受 器 的 注意 力 集中 到 一 些 重 要 的 特征 。 这 让 我 们 想 
起 了 第 5 章 讲述 的 关联 规则 : 它们 努力 把 注意 力 集中 到 变量 子 集 间 潜在 的 有 趣 关 联 上 。 
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图 像 编码 与 数据 分 析 之 闻 的 比喻 似乎 不 够 完美 〈 比 如 说 ， 正 如 我 们 所 描述 的 ， 数 据 压 缩 
并 没有 考虑 泛 化 到 未 见 过 数据 的 概念 )， 尽 管 如 此 ， 这 个 比喻 让 我 们 领会 了 高 分 辩 率 的 局 部 
结构 与 低 分 辨 率 的 全 局 结构 之 间 的 关键 折衷 。 

本 章 是 这 样 组 织 的 : 6.2 节 讨 论 模 型 的 一 些 基本 特征 和 在 建 模 过 程 中 所 要 做 的 必要 选择 。 
6.3 节 集 中 探讨 一 类 重要 模型 背后 的 一 般 原 理 ， 在 这 类 模型 中 ， 把 一 个 变量 从 其 他 众多 变量 
中 独立 出 来 作为 “响应 ”变量 。 这 类 模型 包括 回归 和 有 指导 的 分 类 模型 。 许 多 数据 挖掘 问题 
涉及 大 量 的 变量 ， 这 会 带 来 一 些 问题 ，6.5 节 将 讨论 这 些 问 题 。6.4 节 探 讨 描述 性 模型 。 许 多 
数据 集中 包含 按照 一 定 图 式 〈 如 时 间 序 列 或 图 像 数据 ) 收集 的 数据 ， 在 建 模 过 程 中 通常 需要 
对 这 些 数据 进行 特殊 考虑 。6.6 节 讨论 与 这 些 结构 化 的 数据 相关 的 问题 。 最 后 ， 在 6.7 节 中 
论述 了 针对 多 元 序列 化 数据 的 模式 。 








6.2 ÆRE 


模型 是 对 现实 世界 中 过 程 的 抽象 描述 。 例 如 ，Y = 3X + 2 是 一 个 非常 简单 的 模型 ， 描 述 
了 变量 了 如 何 与 变量 X 相 关联。 可 以 把 这 个 特定 模型 视 为 更 一 般 的 模型 结构 了 = aX +c 的 一 
个 实例 ， 其 中 对 于 这 个 特定 模型 我 们 设 定 了 a=3 和 c=2。 更 一 般 的 情况 是 Y=aX+c+e， 
e 是 一 个 随机 变量 ， 用 来 代表 从 X 到 了 的 映射 《随后 将 讨论 〉 的 随机 部 分 。 正 如 第 4 章 中 所 
描述 的 ， 我 们 通常 把 a、c 叫做 该 模型 的 参数 ， 而 且 经 常用 符号 6 来 表示 一 般 参数 或 者 一 系 
列 参 数 〈 或 者 是 向 量 )。 在 此 实例 中 ，6 = {a c}。 给 定 模 型 的 形式 或 者 结构 ， 接 下 来 我 们 的 
任务 就 是 通过 估计 为 其 选择 合适 的 参数 值 一 一 也 就 是 说 选择 一 个 合适 的 评分 函数 来 衡量 模型 
与 数据 之 间 的 拟 合 情 况 ， 然 后 通过 最 小 化 或 最 大 化 该 函数 来 选择 合适 的 参数 值 。 第 4 章 中 
已 经 介绍 了 这 个 过 程 ， 后 面 的 章节 将 进一步 讨论 。 

然而 ， 在 估计 模型 的 参数 之 前 ， 我 们 必须 首先 为 模型 本 身 选择 一 个 合适 的 函数 形式 。 这 
一 节 的 目的 是 在 较 高 的 层面 上 概述 数据 挖掘 中 所 使 用 的 主要 模型 类 型 。 

数据 控 据 中 的 建 模 是 由 数据 驱动 的 (data-driven )。 它 通常 不 是 由 任何 潜在 机 制 或 “事实 ” 
驱动 的 ， 它 就 是 为 了 捕捉 数据 中 存在 的 关系 。 即 使 在 存在 一 种 被 公认 为 正确 的 数据 产生 机 制 
的 情况 下 ， 我 们 也 应 该 记 住 这 一 点 ， 正 如 George Box 所 说 的 ,“ 所 有 的 模型 都 是 错误 的 ， 不 
过 有 些 是 有 用 的 ”。 例 如， 尽管 我 们 可 能 假设 存在 一 个 线性 模型 来 解释 数据 ， 但 是 往往 是 个 
幻想 ， 因 为 即使 在 最 好 的 情况 下 ， 仍 然 会 有 很 小 的 非 线性 作用 ， 这 是 模型 所 不 能 捕捉 到 的 。 
我 们 要 寻找 的 是 能 够 概括 数据 产生 过 程 主 要 特征 的 模型 。 

因为 数据 挖掘 是 数据 驱动 的 ， 所 以 不 应 该 认为 模型 的 发 现存 在 某 种 因果 关系 。 例 如 ， 顾 
客 记 录 分 析 表 明 ， 购 买 高 品质 和 白酒 的 人 更 有 可 能 购买 出 于 设计 师 之 手 的 服装 。 很 显然 ， 一 种 
倾向 并 不 与 另 一 倾向 〈 在 两 个 方向 上 ) 具有 必然 的 因果 联系 。 而 是 它们 都 更 可 能 是 购买 者 具 
有 相对 较 高 收入 的 结果 。 然 而 ， 拍 酒 和 衣服 这 两 个 变量 彼此 都 与 对 方 没有 因果 关系 的 事实 并 
不 意味 着 它们 对 预测 目的 是 没有 用 处 的 。 从 市 场 的 角度 来 说 ， 由 观察 到 的 购买 白酒 的 行为 预 
言 可 能 购买 服装 的 行为 (如果 以 前 已 经 在 数据 中 发 现 了 这 两 者 的 关系 ) 是 完全 合理 的 。 然 而 ， 
既然 没有 建立 任何 因果 关系 ， 那 么 下 面 的 结论 “操纵 〈manipulating》 一 个 变量 将 导致 男 一 
个 变量 的 变化 ”就 不 正确 。 也 就 是 说 ， 即 使 在 数据 中 存在 这 种 关系 ， 但 是 诱导 顾客 去 购买 高 
品质 白酒 不 见得 会 使 他 们 同样 去 购买 出 于 设计 师 之 手 的 服装 。 
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6.3 用 于 预测 的 模型 结构 


在 预测 模型 中 ， 一 个 变量 被 表达 成 其 他 变量 的 函数 。 这 样 便 可 以 从 给 定 的 其 他 变量 〈 称 
为 解释 变量 或 预报 变量 ) 的 值 预测 响应 变量 的 值 。 通 常用 Y 表示 预测 模型 的 响应 变量 ， 用 
XI，*“，X, 表示 p 个 预报 变量 。 这 样 我 们 便 可 以 建立 一 个 预测 模型 ， 根 据 申请 表 和 数据 库 中 
包含 的 客户 既往 行为 预测 借贷 者 拖欠 贷款 的 概率 。 可 以 把 第 i 个 以 前 客户 的 记录 方便 地 表示 
A(x), YD) |, KH y(i) 表 示 第 i 个 客户 的 结果 《好 或 坏 )， 而 x() 是 第 i 个 客户 申请 表 中 各 
个 值 的 向 量 x=(x()，…，x,(i))。 这 个 模型 将 通过 下 式 进行 预测 ，》=Rx1，…， 太 ; 9)， 其 中 
银 是 该 模型 的 预测 ，6 代表 该 模型 结构 的 参数 。 如 果 Y 是 数量 值 变 量 ， 那 么 从 p 维 向 量 X 
到 了 的 映射 叫做 回归 (regression)。 如 果 了 是 范畴 型 变量 ， 那 么 估计 从 向 量 X 到 了 的 映射 叫 
做 分 类 学 习 (classification learning) 或 有 指导 的 分 类 〈supervised classification )。 从 都 是 在 学 
习 一 种 从 p 维 变量 X 到 了 的 映射 这 个 意义 上 来 说 ,这 两 种 任务 都 可 以 被 看 作 浮 数 近 似 (function 
approximation》 问 题 。 为 了 便于 说 明 ， 本 章 主要 集中 讨论 回归 任务 ， 因 为 很 多 一 般 原 理 可 以 
直接 推广 到 分 类 任务 中 。 第 10 章 、 第 11 章 将 分 别 详细 讨论 有 指导 分 类 和 回归 |。 


6.3.1 具有 线性 结构 的 回归 模型 
我 们 从 简单 的 线性 预测 模型 开始 讨论 ， 在 这 种 模型 中 响应 变量 是 预报 变量 的 线性 函数 ， 即 : 


p 
P=a+ a;X; (6.1) 
j=l 


这 里 9 = {eu，…，w}。 需 要 再 次 重申 的 是 这 个 模型 是 纯 试验 性 的 empirical)， 因 此 存在 高 
匹配 性 和 高 预报 性 的 模型 并 不 意味 着 就 存在 某 种 因果 关系 。 在 上 述 表达 式 的 左边 用 了 而 不 是 
简单 地 用 了 Y， 是 因为 它 是 个 模型 ， 是 在 数据 的 基础 上 构建 的 。 也 就 是 说 了 的 值 是 从 XX 预报 而 
来 ， 而 不 是 实际 观测 到 的 值 。 在 第 11 章 中 将 详细 讨论 这 一 区 别 。 

从 几何 意义 上 讲 ， 这 个 模型 描述 了 一 个 嵌 在 pH 维 空间 的 p 维 超 平面 ,a 决定 它 的 斜率 ， 
ao 为 其 截 距 。 参 数 估计 的 目的 就 是 选取 a 值 来 确定 这 个 超 平面 的 位 置 和 人 角度， 以便 与 数据 
xD, yD}，i= 1，…，n 最 佳 拟 合 ， 拟 合 的 质量 是 由 y 的 实际 观察 值 和 模型 预测 值 了 之 间 的 
差异 来 衡量 的 。 

这 种 具有 线性 结构 的 模型 在 数据 分 析 的 历史 上 占有 很 特殊 的 地 位 ， 一 部 分 是 因为 用 合适 
的 评分 函数 来 评估 它 的 参数 非常 简单 直接 ， 一 部 分 是 因为 该 模型 的 结构 简单 、 容 易 解释 。 例 
如 ， 模 型 的 可 加 性 意味 着 任 一 个 预报 变量 的 改变 都 不 会 影响 其 他 变量 所 对 应 的 参数 。 当 然 有 
些 情况 下 贡献 独立 Cindividual contribution) 是 没有 什么 意义 的 。 特 别 是 ， 如 果 两 个 变量 高 
度 相 关 ， 那 么 探讨 改变 其 中 一 个 变量 而 另 一 个 变量 的 贡献 保持 不 变 就 没有 意义 了 。 在 后 续 章 
节 中 将 更 详细 地 讨论 这 个 问题 。 

我 们 可 以 在 保持 模型 可 加 性 特征 的 前 提 下 ， 在 模型 中 包含 预报 变量 的 非 线 性 函数 。 也 就 是 : 


P 
=a +X a; f(X) (6.2) 
j=! 


Et, RASE X% 的 平滑 〈 但 可 能 是 非 线性 的 ) 函数 。 记 可 以 是 对 数 、 平 方 根 或 者 原始 变量 
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和 的 有 关 变换 。 该 模型 仍然 假定 了 依赖 变量 了 以 可 加 的 形式 依赖 于 模型 中 的 独立 变量 〈X)。 


在 实践 中 ， 这 仍 可 能 是 一 个 很 强 的 假定 ， 但 是 据 此 产生 的 模型 可 以 很 容易 的 解释 每 一 个 变量 


个 体 X 的 贡献 。 模 型 的 这 种 简洁 性 也 意味 着 要 从 数据 中 估算 的 参数 数量 相对 较 少 (p+1)， 
这 使 得 参数 估计 问题 更 加 简单 直接 。 

我 们 还 可 以 进一步 推广 这 种 线性 模型 结构 ， 使 其 可 以 包含 具有 交差 乘积 项 的 一 般 多 项 
式 ， 以 允许 模型 中 各 个 变量 X 之 间 的 相互 作用 。 一 维 的 情况 是 很 熟悉 的 一 一 我 们 可 以 将 其 
想像 为 用 2 次 、3 次 或 者 次 多 项 式 来 内 插 表 示 观 测 到 的 y 值 。 多 维 的 情况 将 此 推广 到 (p+1) 
维 空间 里 定义 在 p 个 变量 上 的 光滑 曲面 。 

需要 指出 的 是 ， 尽 管 这 些 预测 模型 关于 变量 X 是非 线性 的 ， 但 是 它们 对 于 参数 却 是 线性 
的 。 我 们 将 在 第 1 章 中 看 到 ， 相 对 于 参数 以 非 线性 形式 介入 的 情况 而 言 ， 这 使 得 参数 评估 
变 得 容易 得 多 。 


例 6.1 在 图 6-1 (a) 中 ， 我 们 显示 了 从 等 式 y=0.001x - 0.057 +2 + e 模拟 出 
的 50 个 数据 点 ，x6 [1，50]， 其 中 e 是 附加 的 高 斯 ( 均值 为 0， 标 准 偏差 9 = 3) 
£2, B61 (b) 显示 了 对 数据 的 线性 拟 合 ， 图 6-1 (c) 显示 了 对 数据 的 二 次 多 
项 式 拟 合 。 尽 管线 性 拟 合 抓 住 了 了 作为 里 通 数 的 总 的 向 上 趋势 ( 在 这 个 特定 区 间 )， 
但 是 显然 二 次 拟 合 效果 更 好 。 正 如 我 们 可 以 从 每 一 个 模型 的 误差 结构 中 (每 个 模型 
的 误差 都 具有 作为 x BOAR) 所 看 到 的 ， 两 种 拟 合 都 没有 完全 捕捉 到 真实 
结构 的 内 在 弯曲 。 两 种 拟 合 都 是 由 最 小 化 误差 平方 和 评分 函数 来 确定 的 。 


注意 到 通过 在 模型 中 包含 更 高 次 项 和 X 各 分 量 之 间 的 相互 作用 项 ， 原 则 上 我 们 能 够 估 
算出 比 简单 线性 模型 所 对 应 的 超 平面 更 复杂 的 曲面 。 然 而 ， 应 该 注意 到 随 着 p (输入 空间 的 
维度 ) 的 增加 ， 模 型 中 可 能 的 相互 作用 项 (如 XX) 的 数量 会 按照 关于 p 的 组 合 函 数 增加 。 
因为 可 加 模型 中 每 一 项 都 具有 一 个 权 系数 〈 人 参数 )， 所 以 随 着 p 的 增加 整个 模型 (包括 所 有 
个 变量 间 的 所 有 可 能 k 阶 相互 作用 项 ) 中 要 估计 的 参数 数量 会 迅速 上 升 。 对 这 类 模型 的 解 
释 和 理解 也 随 p 的 增加 而 难度 更 大 。 实 践 中 的 一 种 替代 办 法 是 选择 可 能 相互 作用 项 整个 集合 
的 一 个 很 小 子 集 加 入 到 模型 中 。 然 而 ， 如 果 以 数据 驱动 的 方式 〈 数 据 挖 气 应 用 中 最 具 代 表 性 
的 方式 ) 实施 选择 的 话 ， 那 么 所 有 可 能 的 相互 作用 项 〈 搜 索 空间 的 大 小 ) 将 达到 2， 随 着 空 
间 维 度 p 的 增加 搜索 问题 的 难度 将 按 指数 规律 增加 。 本 章 稍 后 将 回 过 头 来 讨论 如 何 处 理 维度 
的 问题 。 

将 线性 模型 推广 到 多 项 式 模型 带 来 了 一 个 重要 的 问题 ， 即 模型 的 复杂 度 。 较 复杂 模型 包 
含 了 较 简 单 模 型 作为 其 特例 ( 即 所 谓 的 嵌 套 )。 例 如 ， 一 次 模型 aX, + a 可 以 视 为 二 次 多 项 
式 模型 oXi2 + aX ta 当 qs 为 0 时 的 特殊 情况 。 因 此 ， 不 难得 出 复杂 模型 (X 变量 的 高 阶 多 
项 式 ) 拟 合 观察 到 数据 的 效果 总 是 至 少 和 较 简 单 模型 的 一 样 好 因为 它 包 含 了 相对 简单 的 模 
型 作为 特例 )。 这 样 便 产生 了 一 个 复杂 的 问题 ， 当 不 同 模 型 的 复杂 度 或 表达 能 力 ) 不 一 样 
时 ， 应 该 如 何 选 择 这 一 个 模型 而 不 选 那 一 个 。 这 是 一 个 琼 手 的 问题 : 我 们 可 能 需要 一 个 最 接 
近 某 个 猜想 的 未 知 “ 事 实 ”的 模型 ， 也 可 能 需要 寻找 一 个 能 够 抓 住 数据 的 主要 特征 又 不 太 复 
杂 的 模型 ， 也 可 能 需要 寻找 一 个 能 够 对 未 见 过 数据 做 出 最 好 预测 的 模型 ， 如 此 等 等 。 后 续 章 
节 会 返回 到 这 个 问题 上 。 现 在 我 们 回 过 头 把 讨论 的 焦点 集中 到 模型 自身 的 表达 能 力 上 ， 而 不 
考虑 针对 已 知 观 察 数据 如 何在 这 些 模型 中 做 出 选择 的 问题 。 
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变量 X 
模型 拟 合 示例 。(a) 用 附加 了 高 斯 〈 正 态 ) 噪声 的 三 次 多 项 式 模拟 出 的 50 个 数 
HEA: (b) 模型 cX + b (SAR) 的 拟 合 情 况 ，(c) 模型 aX? + bX + < CER) 的 
拟 合 情 况 。(b) 和 (c) 中 的 虚线 表示 产生 数据 点 的 真正 模型 〈 参 见 正文 )。 每 
种 情况 下 的 模型 参数 都 是 用 最 小 化 模型 预测 值 和 观测 值 之 间 的 误差 平方 和 来 估计 的 
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变量 X 
图 6-2 ”对 图 6-1 中 数据 进行 分 段 线性 拟 合 的 例子 。 图 中 使 用 了 5 个 线性 片段 (k=5) 


变换 预报 变量 是 推广 线性 结构 的 一 种 方式 。 另 一 种 方式 是 变换 响应 变量 。sqrt(Y) 可 能 很 
好 地 与 变量 X 的 线性 组 合 相关 ， 因 而 与 其 直接 匹配 了 不 如 先 求 它 的 平方 根 ， 然 后 用 变量 X 
的 线性 组 合 去 预报 sgri({Y)。 当 然 我 们 事先 并 不 知 到 平方 根 是 合适 的 变换 形式 。 必 须 通 过 试验 
尝试 多 种 变换 形式 ， 同 时 正如 第 2 章 中 所 讨论 的 ， 要 注意 问题 中 所 涉及 的 测量 方法 特性 隐 
含 的 约束 。 正 因为 此 我 们 才 说 数据 挖掘 是 一 种 令 人 兴奋 的 发 现 之 旅 ， 而 不 仅仅 是 以 标准 方式 
应 用 标准 方法 的 简单 运用 。 

正如 第 11 章 中 所 述 ， 我 们 可 以 把 简单 线性 回归 模型 想像 为 是 在 预报 变量 X 的 每 个 值 处 
预测 分 布 了 的 期 望 值 ， 即 E[Y | 各。 也 就 是 说 ， 回 归 模 型 预报 了 Y 的 条 件 分 布 的 参数 ， 这 里 
参数 就 是 均值 。 当 然 ， 更 一 般 的 情况 是 ， 从 变量 X 的 线性 组 合 可 以 预测 了 的 其 他 条 件 分 布 
参数 。 这 就 是 第 11 章 中 将 要 探讨 的 推广 的 线性 模型 〈generalized linear model) 和 神经 网 络 。 

我 们 看 到 , 尽管 线性 模型 简单 而 又 易于 解释 (而 且 我 们 也 看 到 , 它们 的 参数 很 容易 估算 )， 
但 是 可 以 很 方便 地 对 它们 进行 推广 ， 得 到 强大 而 又 灵活 的 模型 。 任 何 一 看 到 “线性 ”一 词 就 
以 为 是 一 种 死板 模型 的 想法 都 是 错误 的 。 


6.3.2 ”用 于 回归 的 局 部 分 段 模型 结构 


还 有 一 种 进一步 推广 基本 线性 模型 的 方法 ， 那 就 是 假定 了 是 X 的 局 部 线性 函数 一 一 在 X 
空间 的 不 同 区 域 具 有 不 同 的 局 部 依赖 性 ， 这 便 是 分 段 线性 模型 。 从 几何 学 角度 来 说 ， 该 结构 
包括 一 系列 p 维 超 平面 ， 每 一 个 平面 覆盖 输入 〈X) 空间 的 一 个 区 域 ， 这 个 区 域 与 其 他 区 域 不 
重大 。 这 种 模型 结构 的 参数 既 包 括 每 个 超 平面 的 局 部 参数 ， 又 包括 各 个 超 平面 的 位 置 《 边 界 )。 
对 于 义 为 一 维 的 情况 ， 其 原理 是 很 容易 描绘 的 ， 由 个 不 同 的 直线 段 副 近 一 条 曲线 (图 6-2 中 
显示 了 这 样 的 一 个 例子 )。 注 意 在 这 幅 图 中 线段 是 彼此 相连 的 ， 因 而 线 是 连续 的 。 也 可 以 定义 
一 种 松散 的 模型 结构 ， 线 段 未 端 不 需要 连接 。 有 时 这 是 很 有 用 的 一 种 模型 形式 ， 但 有 时 不 连 
续 也 会 导致 问题 出 现 ， 因 为 这 意味 着 预报 变量 的 极 小 变化 将 导致 响应 变量 的 值 产 生 突然 跳跃。 
例如 ， 如 果 两 个 片段 是 在 收入 变量 值 为 $50,000 处 断裂 的 ， 那 么 对 于 两 个 除了 一 个 收入 是 
$50,001、 另 一 个 收入 是 $49,999 外 都 一 样 的 申请 者 ， 我 们 得 到 的 对 响应 变量 了 》( 借 贷方 的 拖欠 
概率 ) 的 预测 值 可 能 差异 很 大 。 如 果 认 为 不 连续 性 不 可 取 的 话 ， 那 么 可 以 强制 使 每 条 线段 在 
未 端 具有 不 同 阶 的 导数 连续 性 〈 显 然 不 再 是 直线 )。 这 样 的 曲线 片段 被 称 为 样 条 (spline)， 对 
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应 的 整个 模型 叫做 样 条 函数 (spline function)。 通 常 ， 每 一 条 线段 对 应 于 一 个 低 次 〈 二 次 或 三 
次 ) 多 项 式 。 这样 做 得 到 的 结果 是 一 条 光滑 的 曲线 ， 但 是 可 能 多 次 改变 方向 一 一 所 以 这 种 模 
型 具有 高 度 的 灵活 性 。 

可 以 把 这 种 思想 推广 到 预报 变量 数 多 于 一 个 的 情况 。 同 样 ， 各 个 局 部 片段 〈 现 在 不 再 是 
RE Mz CH) 曲面 ) 可 以 但 不 是 必须 在 边界 处 相连 接 。 第 10 章 描述 的 有 指导 分 类 树 结 
构 就 是 这 种 模型 的 例子 。 

分 段 线性 模型 是 通过 把 简单 的 部 分 〈 这 里 是 超 平面 ) 分 段 结合 在 一 起 构建 出 相对 复杂 模 
型 〈 适 用 于 非 线性 情况 ) 的 很 好 例子 。 这 是 数据 挖掘 中 的 经 常 使 用 的 一 种 模式 一 一 由 相对 简 
单 的 局 部 组 件 构建 出 复杂 的 全 局 结构 一 一 这 种 思想 同时 又 是 建 模 和 模式 探测 之 间 的 桥梁 。 也 
就 是 说 ， 局 部 性 也 提供 了 把 复杂 模型 分 解 成 简单 局 部 模式 的 框架 。 例 如 ， 了 关于 XX 函数 曲线 
上 的 一 个 “波峰 ”可 以 用 两 条 彼此 相连 的 适当 斜率 的 斜 线 反映 出 来 。 

本 小 节 和 上 一 小 节 介 绍 了 如 何 由 简单 模型 构建 复杂 模型 。 其 途径 要 么 是 把 简单 模型 合并 
成 复杂 模型 ， 要 么 是 通过 不 同方 法 泛 化 简单 模型 到 复杂 模型 。 数 据 挖 抉 中 使 用 的 模型 ， 没 有 
一 个 是 绝对 孤立 的 ， 而 是 通过 各 种 各 样 的 关系 相互 联系 在 一 起 ， 每 个 模型 要 么 是 其 他 模型 的 
泛 化 、 要 么 就 是 其 他 模型 的 特例 或 者 变 体 。 在 数据 控 气 中， 建立 一 个 有 效 模型 的 关键 之 处 是 
选 出 能 够 最 好 地 解决 所 面临 问题 的 一 种 模型 形式 。 这 不 是 一 种 简单 的 操作 : 选 一 种 模型 形式 ; 
WAC: 然后 便 给 出 结论 。 相 反 ， 我 们 需要 拟 合 模型 ， 根 据 结果 修正 或 者 拓展 模型 ， 然 后 反 
复 重 复 上 述 操作 。 数 据 挖掘 ， 总 的 来 说 像 数据 分 析 一 样 ， 是 一 种 反 反 复 复 的 过 程 。 


6.3.3 “基于 记忆 ”的 非 参 数 局 部 模型 


在 前 面 一 小 节 中 我 们 给 出 了 一 些 例子 ， 说 明了 基于 数据 的 局 部 特征 的 模型 是 如 何 与 广泛 
的 全 局 模型 相 联系 的 ， 实 际 是 前 者 包含 在 后 者 中 。 本 小 节 要 进一步 介绍 局 部 建 模 的 思想 。( 回 
想 一 下 模式 ， 它 尽管 也 是 局 部 的 ， 但 却 是 孤立 结构 ， 不 是 数据 的 全 局 概括 的 一 部 分 。 因 此 我 
们 可 以 说 局 部 建 模 技 术 和 模式 探测 是 完全 不 同 的 。) 

粗略 地 讲 ， 上 面 简要 描述 的 样 条 和 树 模型 是 用 从 数据 点 附近 估计 出 的 函数 来 兰 代 这 些 数 
据点 。 另 一 种 相对 的 策略 是 保留 这 些 数 据点 ， 推 迟 对 了 的 预测 值 的 估计 过 程 ， 直 到 确实 需要 
估计 的 时 候 。 即 数据 不 再 被 函数 和 它 的 参数 来 代替 。 例如 ， 要 估计 响应 变量 了 在 新 情况 下 的 
值 时 ， 可 以 取 数 据 集 中 极 相似 的 对 象 所 对 应 的 了 值 的 平均 值 ， 这 里 的 “ 极 相似 ”是 根据 预报 
变量 定义 的 。 

可 以 把 这 种 思想 扩展 到 包含 数据 集中 的 所 有 对 象 ， 但 必须 根据 它们 与 新 对 象 的 相似 程度 
对 它们 进行 加 权 一 一 不 相似 者 权 值 小 ， 相 似 者 权 值 大 。 权 值 决定 了 它们 的 了 值 对 最 终 估 计 的 
贡献 。 局 部 加 权 回 归 〈 也 就 是 loess9 回 归 〉 模 型 就 是 这 种 估计 方法 的 例子 。 

虽然 我 们 是 在 预测 建 模 的 背景 下 讨论 局 部 平滑 思想 的 ， 但 该 思想 也 适用 于 描述 建 模 和 密 
度 估计 的 情况 一 一 事实 上 后 者 是 最 早 推广 这 种 思想 的 领域 。 实 际 上 ， 在 第 3 章 我 们 已 经 看 到 
了 这 种 方法 在 显示 单 变量 图 形 中 的 应 用 ， 当 时 使 用 这 种 思想 来 估计 概率 密度 函数 。 在 后 面 的 
章节 中 我 们 将 看 到 更 多 有 关 这 方面 的 例子 。 在 这 一 背景 下 ， 第 3 章 中 介绍 的 所 谓 核 〈kernel) 
估计 量 是 非常 常见 的 。 

对 于 这 种 估计 量 ， 一 个 明显 的 问题 是 如 何 确定 权 函 数 的 形式 。 随 相似 性 降低 缓慢 衰减 的 
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分 析 目 的 的 折衷。 
可 把 权 函 数 分 解 成 两 部 分 ， 一 部 分 是 它 精 确 的 函数 形式 ， 另 一 部 分 是 它 的 “带宽 ”。 假 


aK ETE ] 是 一 个 平滑 函数 ， 用 来 确定 数据 集中 的 点 对 一 个 新 点 = 的 估计 的 贡献 。 该 献 


的 大 小 依赖 于 天 的 形式 ， 同 时 也 依赖 于 带宽 h WAE h 越 大 评分 函数 的 平滑 性 越 好 ， 带 宽 h 
越 小 评分 函数 越 粗糙 〈 多 锯齿 )。 实 践 证 明 带 宽 比 权 函 数 的 精确 形式 更 重要 。 


例 6.2 图 6-3 显示 了 由 三 角 核 函数 构建 的 回归 函数 例子 ， 图 中 使 用 了 三 个 不 
同 的 带宽 。 这 里 我 们 的 目的 是 估计 发 动机 尾气 中 氮 氧 化 物 (NOx) 比例 ， 相 对 乙醇 
(E) 的 函数 。 我 们 使 用 的 数据 是 在 不 同 条 件 下 对 81 台 汽车 发 动机 的 测量 结果 。 
图 中 最 大 的 带宽 (hh = 0.5) 显然 太 宽 了 ， 产 生 的 评估 过 于 平滑 ， “遗漏 ”了 中 间 的 
波峰 和 两 端的 信息 ; REWER (h = 0.02) 给 出 了 一 种 很 “ 尖 刻 ”的 评估 ， 有 看 起 
来 追随 了 观测 数据 中 的 嗓 声 ; 取 值 介 于 二 者 中 间 的 带宽 (h= 0.1) HARSH, BER 
留 了 NOx 和 EE 之 间 的 关系 又 不 过 度 拟 合 。 对 于 简单 的 一 维 问题 ， 主 观 的 目 视 观察 
方法 是 选择 带宽 的 一 种 实用 方法 ， 但 不 适用 于 多 维 问题 。 也 可 以 采用 许多 自动 化 方 
法 以 数据 驱动 的 方式 来 选择 产值 ， 比 如 “交差 验证 法 ”。 


核 函 数 法 与 最 近邻 法 有 着 非常 密切 的 关系 。 事 实 上 ， 这 两 类 方法 都 在 不 断 地 扩展 延伸 ， 
以 至 于 某 些 情况 下 它们 已 经 完全 相同 了 。 然 而 核 函数 法 是 按照 核 函 数 和 带宽 来 定义 平滑 度 ， 
而 最 近邻 法 则 按 最 近邻 的 数量 来 定义 平滑 度 ， 让 数据 来 决定 带宽 。 例 如 基本 的 单一 最 近邻 分 
类 器 〈 这 里 了 是 分 类 变量 ) 把 数据 集中 最 相似 对 象 所 属 的 分 类 赋 给 新 对 象 ， 而 上 最 近邻 分 类 
器 把 数据 集中 个 最 相似 对 象 中 最 普遍 的 分 类 赋 给 新 对 象 。 更 复杂 的 最 近邻 方法 根据 到 被 分 
类 点 的 距离 确定 对 估计 的 贡献 加 权 ， 而 更 复杂 的 核 函数 方法 让 带宽 依赖 于 数据 一 一 因此 从 模 
型 结构 上 来 说 这 两 种 方法 几乎 是 相同 的 。 

像 核 函数 模型 这 样 的 局 模型 部 结构 经 常 被 描述 成 非 参 数 的 ， 因 为 这 种 模型 在 很 大 程度 上 
说 是 数据 驱动 的 ， 没 有 传统 意义 上 的 参数 (带宽 h 除外 )。 这 种 数据 驱动 平滑 技术 (例如 核 
函数 模型 》 对 于 解释 数据 是 很 有 用 的 ， 至 少 在 一 维和 二 维 的 情况 下 是 如 此 。 

很 清楚 ， 局 部 模型 有 其 吸引 人 的 地 方 。 然 而 ， 没 有 任何 一 个 模型 可 以 解决 所 有 问题 ， 局 
部 模型 也 有 不 足 之 处 。 尤 其 是 随 着 预测 空间 中 变量 数量 的 增加 ， 要 获得 准确 估计 所 需 的 数据 
点 数量 在 呈 指 数 上 升 (“维度 效应 ”的 结果 ， 见 下 面 的 6.5 节 )。 这 意味 着 这 些 “ 局 部 近邻 ” 
模型 对 于 高 维 问题 的 伸缩 性 往往 很 差 。 

从 数据 挖掘 的 观点 来 看 ， 还 有 一 个 缺点 就 是 这 种 模型 缺乏 可 解释 性 。 在 低 维度 Cp S 3) 
的 情况 时 ， 可 以 画 出 曲线 进行 估计 ， 但 在 高 维度 时 是 不 可 能 的 ， 而 且 没有 直接 的 方法 来 概括 
模型 。 事 实 上 ， 把 这 些 表示 称 为 模型 是 在 扩展 模型 的 定义 ， 因 为 它们 从 来 没有 被 定义 成 显 式 
的 函数 ， 只 是 通过 数据 作 了 隐 含 的 定义 。 


6.3.4 ”模型 结构 的 随机 部 分 


直到 这 一 节 ， 除 了 有 几 处 简要 提 及 以 外 ， 我 们 一 直 忽略 了 这 样 一 个 事实 : 对 于 真实 的 数据 ， 
通常 很 难 找到 存在 于 预报 变量 X 和 响应 变量 Y 之 间 的 完美 函数 关系 。 换 言 之 ， 对 于 预报 变量 的 
任何 一 个 给 定向 量 x， 能 够 观察 到 的 了 值 不 只 一 个 。 对 于 X 的 每 一 个 值 的 y 值 分 布 中 体现 了 一 
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种 偏差 〈variation)， 如 果 仅 使 用 关于 变量 X 的 模型 ， 那 么 这 种 偏差 是 不 会 随 模 型 的 复杂 性 而 降 
低 的 。 正 因为 如 此 ， 有 时 把 它 叫 做 偏差 的 不 可 解释 部 分 、 非 系统 部 分 或 者 叫 随机 部 分 ， 而 把 可 
以 根据 变量 X 解释 的 Y 的 偏差 叫做 可 解释 偏差 或 系统 偏差 。( 当然 ， 这 仅 是 因为 系统 偏差 原则 
上 可 以 被 变量 X 解释 ， 并 不 意味 着 一 定 可 以 构建 出 能 够 做 到 这 一 点 的 模型 )。 
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图 6-3 “利用 三 角 核 函 数 回归 估计 氨 氧 化 物 (NOx) 关于 乙醇 〈E) 的 函数 。 从 
上 至 下 对 应 的 带宽 分 别 为 : h=0.5 CE), h=0.1 CP) 和 h=0.02 CF) 


在 前 面 的 大 多 数 讨论 中 ， 我 们 一 直 把 注意 力 集中 在 模型 的 系统 部 分 ， 但 是 我 们 也 需要 考 
虑 模型 的 随机 部 分 。 模 型 的 随机 部 分 可 能 来 源 于 许多 方面 。 可 能 是 由 简单 的 测量 误差 导致 
的 一 一 正如 第 2 章 所 讨论 的 ， 重 复 测量 了 将 得 到 不 同 的 结果 。 也 可 能 是 由 于 变量 X 的 集合 
中 没有 包括 完美 预测 Y 所 需 的 所 有 变量 所 导致 的 〈 例 如 ， 如 果 仅仅 依赖 顾客 过 去 的 购买 行为 
来 预测 他 是 否 要 购买 特定 产品 ， 那 么 就 忽略 了 可 能 相关 的 人 口 统计 学 信息 ， 比 如 年 龄 、 收 入 
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等 )。 事 实 上 这 种 情况 通常 是 应 该 在 预料 内 的 : 仅 用 数量 有 限 的 变量 就 可 以 完美 地 解释 另 一 
个 变量 的 所 有 变化 细节 的 情况 是 极 少见 的 。 


例 6.3 可 以 把 前 面 讨论 的 回归 建 模 框 架 进行 扩展 ， 使 之 包含 一 个 随机 部 分 。 
假定 对 于 每 一 个 x， 我 们 将 观察 到 一 个 特定 的 y， 但 带 有 一 定 的 附加 骂 声 ， 也 就 是 
说 ， 在 x 和 yy 关系 中 存在 某 种 固有 的 不 确定 性 : 

y= g(xX;0)+e (6.3) 

这 里 px OMA x 的 确定 性 函数 ， 而 e 通常 被 定义 为 方差 (中) 恒定 而 且 均 
值 为 零 的 随机 变量 ( 独立 于 x), MAMA e 反映 了 测量 过 程 的 噪声 ( 也 就 是 说 ， 我 
们 并 没有 观测 到 y 的 “真实 ” 值 ， 而 是 得 到 了 一 个 带 有 骂 声 的 y 的 观测 值 )。 更 一 
般 地 讲 ， 随 机 部 分 e 反映 了 存在 着 隐藏 变量 的 事实 ( 这些 变量 没有 被 测量 到 ， 或 者 
对 于 观测 来 讲 是 隐藏 的 )， 隐藏 变量 对 y 的 影响 方式 是 无 法 用 了 对 变量 X 的 依赖 性 
来 表达 的 。 

对 e 的 零 均 值 假设 并 无 害处 ， 因 为 如 果 骂 声 是 个 非 零 均值 ， 那 么 就 可 以 把 它 吸 
收 到 8 里 去 而 不 失 一 般 性 。 例 如 ， 作 一 个 常见 的 假定 ， 假 定 e 服从 均值 为 零 并 且 具 
有 恒定 方差 ?的 正 态 分 布 ， 那 么 : 

yix ~ NU O), Wx = Elylx] = g(x; 0) (6.4) 

在 实践 中 ， 需 要 慎重 者 上 处 恒 定 方差 号 这 一 假定 : 例如， 如 果 Y 代表 年 度 信用 
卡 消费 ，X 代表 收入 ， 那 么 有 可 能 了 的 变化 性 会 按 和 的 函数 上 升 。 如 果 是 这 样 的 
话 ， 那 么 为 了 在 模型 中 包含 这 一 特征 ， 上 述 模型 中 的 go 就 必须 为 x 的 函数 。 

注意 在 这 些 公式 中 函数 8 的 形式 是 自由 的 ， 也 就 是 说 ， 可 以 选择 前 面 所 讨论 的 
任何 一 种 模型 结构 。 我 们 在 第 4 章 中 已 经 看 到 ， 上 面 对 e 的 正 态 假设 很 自然 地 让 我 
们 想起 最 小 平方 法 回归 一 一 也 就 是 通过 最 小 化 观测 到 的 y 值 和 flx; 8) 之 间 的 误差 平 
方 和 来 确定 g 的 参数 0. 


在 选择 合适 的 评分 函数 来 估计 参数 时 或 在 选择 模型 时 ， 随 机 部 分 是 很 重要 的 。 似 然 评分 
函数 第 4 章 介绍 的 ， 其 他 地 方 也 讨论 过 ) 就 是 基于 对 随机 部 分 的 分 布 形式 的 假定 的 。 扩 展 
的 似 然 函数 包括 一 个 平滑 性 惩罚 项 以 便 不 拟 合 过 于 复杂 的 模型 ， 该 函数 也 需要 对 随机 部 分 的 
分 布 情况 作出 假定 。 基 于 似 然 概念 的 更 高 级 方法 〈 例 如 ， 所 谓 的 准 似 然 方法 〈quasi-likelihood 
method)) 放宽 了 分 布 假定 的 细节 ， 但 选择 参数 估计 时 仍然 是 以 随机 部 分 的 分 布 情况 为 基础 
的 。 


6.3.5 用 于 分 类 的 预测 模型 


到 目前 为 止 ， 我 们 集中 讨论 的 预测 模型 的 被 预测 变量 Y 都 是 数量 型 的 。 现 在 ， 我 们 简要 
考虑 一 下 了 是 范畴 型 变量 的 情况 , 也 就 是 说 了 的 取 值 范围 是 几 个 可 能 的 范畴 性 值 . 这 就 是 (有 
指导 的 ) 分 类 问题 ， 其 目的 是 根据 一 个 新 对 象 的 观测 到 的 X 值 ， 将 其 分 配 到 一 个 正确 的 类 
别 中 (也 就 是 正确 的 了 范畴 )。 

在 分 类 建 模 中 ， 我 们 实质 上 感 兴趣 的 是 不 同类 别 之 间 的 边界 。 像 回归 的 情况 一 样 ， 我 们 
可 以 对 边界 的 函数 形式 作 一 个 简单 的 参数 假定 。 例 如 ， 一 种 分 类 途径 是 在 p HEX 空间 里 采用 
线性 超 平面 来 定义 两 个 类 别 之 间 的 决策 边界 。 也 就 是 说 ， 模 型 用 线性 边界 把 X 空间 分 割 成 不 
相交 的 决策 区 域 〈 每 个 部 分 对 应 一 个 类 别 ) (参见 图 6-4)。 更 复杂 的 模型 允许 包含 更 高 次 的 多 
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项 式 项 ， 这 就 产生 了 多 项 式 决 策 边界 。 如 果 允 许 非常 灵活 的 非 线性 形式 作为 边界 的 话 ， 那 么 
我 们 就 得 到 了 像 第 5 章 所 讨论 的 神经 网 络 分 类 器 那样 的 模型 。 











LU 一 1— Lamaen m] 
H 11.5 12 12.5 13 13.5 14 14.5 15 
酒精 浓度 (%) 


图 6-4 ”线性 决策 边界 的 例子 ， 对 应 的 数据 集 为 第 5 章 中 的 二 维 酒 分 类 数据 集合 《〈 参 见 图 5-1) 


就 像 回 归 建 模 的 情况 一 样 ， 另 一 种 提高 灵活 性 的 方法 是 组 合 多 种 简单 局 部 模型 ， 比 如 像 
图 6-5 所 示 的 那样 把 线性 决策 边界 分 段 组 合 起 来 。 举 例 来 说 ， 第 5 章 中 的 分 类 树 模型 定义 了 
一 类 特殊 的 局 部 线性 决策 边界 ， 其 边界 是 分 层 的 并 且 是 与 坐标 轴 平 行 的 。 正 如 前 面 所 提 到 的 ， 
最 近邻 分 类 器 是 用 训练 数据 集中 与 新 的 未 知 类 数据 点 最 近 点 的 标签 作为 预测 。 虽 然 这 种 技术 
本 质 上 通常 被 视 为 一 种 方法 而 不 是 模型 ， 但 事实 上 它 确实 隐 含 定义 了 一 种 分 段 线性 边界 《至 
少 是 在 使 用 欧式 距离 定义 近邻 时 是 这 样 的 )。 

还 有 数量 相当 大 的 不 同 分 类 技术 ， 它 们 提供 了 不 同 的 方式 来 模拟 决策 边界 。 像 最 近邻 这 
样 的 方法 很 灵活 〈 对 于 每 一 个 类 别 ， 人 允许 有 多 个 局 部 的 彼此 不 相连 的 决策 区 域 ， 区 域 具 有 灵 
活 的 边界 )， 而 给 出 单一 全 局 超 平面 的 模型 要 简单 得 多 。 

从 实践 建 模 的 角度 来 看 ， 关 于 分 类 边界 形状 的 以 前 知识 可 能 不 如 回归 问题 中 关于 了 如 何 
与 X 相关 联 的 知识 那么 容易 获得 。 然 而 在 判别 模型 中 成 功 使 用 的 函数 形式 与 前 面 在 回归 建 
模 中 讨论 的 函数 形式 极为 相似 ， 因 此 二 者 间 有 很 多 同样 的 问题 。 我 们 在 第 10 章 中 将 更 深入 
地 讨论 分 类 模型 。 
6.3.6 ”选择 适当 复杂 度 的 模型 

到 现在 为 止 我 们 已 经 介绍 了 许多 模型 结构 ， 从 相对 简单 的 到 复杂 的 。 例 如 ， 在 回归 问题 
中 “分 段 -局 部 ”模型 结构 的 复杂 度 是 受 局 部 区 域 的 数 且 控制 的 《假定 每 个 区 域 的 局 部 函 


数 复杂 度 是 固定 的 )。 随 着 k 的 增 大 ， 所 得 到 的 曲线 可 以 更 紧密 地 “追随 ”观测 数据 。 换 言 
之 ， 模 型 结构 的 表达 能 力 增 加 了 ， 因 为 它 能 够 表示 更 复杂 的 函数 。 
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图 6-5 分 段 线性 决策 边界 的 例子 。 对 应 的 数据 集 为 第 5 章 中 的 二 维 酒 分 类 数据 集合 (参见 图 5-1) 


由 于 增加 了 模型 的 表达 能 力 ， 那 么 很 显然 一 般 情况 下 会 达到 对 现 有 数据 的 更 好 拟 合 效 
果 。 然 而 必须 要 小 心 。 虽 然 评分 函数 在 训练 数据 上 的 效果 改善 了 ， 但 是 从 泛 化 到 新 数据 的 角 
度 来 讲 模型 的 性 能 实际 上 可 能 变 得 更 差 了 。( 回 忆 一 下 在 第 5 章 讨论 分 类 树 时 介绍 的 “过 度 
Us” RA, THEA 5-4。) 另 一 方面 ， 如 果 我 们 走 另 一 个 极端 ， 使 模型 结构 过 于 简单 化 ， 
那么 就 会 因 其 太 简单 而 失败 。 这 种 选择 适当 复杂 度 模 型 的 问题 始终 是 所 有 数据 分 析 探 索 过 程 
的 一 个 关键 问题 。 事 实 上 ， 在 第 7 章 中 我 们 将 从 理论 角度 对 此 进行 分 析 ， 采 用 的 方法 是 第 4 
章 中 介绍 的 偏差 -方差 平衡 思想 的 推广 。 

那么 实践 中 ， 如 何在 复杂 和 简单 之 间 选 择 一 种 合适 的 折衷 呢 ? 从 数据 驱动 的 角度 (也 就 
是 数据 挖掘 的 角度 ) 来 看 ， 我 们 可 以 定义 一 种 评分 函数 ， 它 不 仅 可 以 考察 模型 对 训练 数据 的 
拟 合 情 况 ， 而 且 可 以 估计 模型 对 于 新 数据 的 性 能 。 一 种 普遍 使 用 的 办 法 是 把 普通 的 拟 合 度 项 
(对 于 训练 数据 ) 和 一 个 明确 惩罚 模型 复杂 度 的 项 组 合 起 来 。 另 一 个 广泛 使 用 的 方法 是 把 训 
练 数据 分 割 成 两 个 或 更 多 的 子 集 〈 就 像 第 5 章 中 描述 的 用 于 分 类 树 的 交差 验证 办 法 那样 )， 
然后 在 一 个 子 集 上 训练 模型 ， 再 使 用 不 同 的 验证 子 集 选 择 模型 。 

因为 本 章 的 重点 是 讨论 不 同 模型 和 模式 结构 的 表示 能 力 ， 而 不 是 讨论 它们 相对 数据 的 效 
果 如 何 ， 所 以 我 们 把 对 评分 函数 的 详细 讨论 推迟 到 第 7 章 。 然 而 ， 对 于 那些 一 直 想 知道 如 何 
在 已 经 讨论 的 不 同 模型 中 做 出 选择 的 读者 来 说 ， 管 案 是 确实 存在 一 些 定义 完备 的 数据 驱动 评 
分 函数 , 这 些 评分 函数 允许 我 们 搜索 不 同 的 模型 结构 以 找到 对 给 定 任务 看 来 最 合适 的 模型 ( 具 
有 一 定 的 限定 ， 我 们 将 在 第 7 章 中 介绍 )。 


6.4 ”概率 分 布 和 密度 函数 模型 


前 面 一 节 纵 览 了 预测 问题 ， 在 预测 问题 中 特别 选 出 一 个 变量 《标识 为 Y)， 然 后 使 用 其 
他 变量 对 其 作出 预测 。 数 据 挖掘 中 的 很 多 建 模 问题 都 属于 这 一 类 。 然 而 还 有 许多 建 摸 问题 是 
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“描述 性 ”的 ， 目 标 是 给 出 对 数据 的 描述 或 总 结 。 如 果 现 有 数据 是 完整 的 〈 如 某 一 类 化 合 物 
的 全 部 )， 那 么 就 不 存在 任何 推理 概念 ， 目 标 就 是 简化 描述 。 另 一 方面 ， 如 果 现 有 数据 是 一 
个 样本 或 者 带 有 误差 的 测量 值 〈 因 而 如 果 再 采集 一 次 数据 ， 那 么 可 能 会 得 到 略微 不 同 的 值 》， 
那么 建 模 的 目的 实质 上 是 一 种 推理 一 一 推理 出 “真实 ”或 者 至 少 是 比较 好 的 模型 结构 。 对 后 
一 种 情况 ， 可 以 把 数据 想像 为 是 由 一 个 潜在 的 概率 函数 产生 的 。 


6.4.1 一 般 概 念 


在 这 一 节 中 我 们 集中 讨论 几 种 用 于 密度 估计 的 通用 模型 (第 9 章 中 会 给 出 更 详细 的 讨 
论 )。 因 为 潜在 模型 的 函数 形式 往往 会 与 我 们 在 前 面 看 到 的 (如 单 峰 的 “ 凸 起 ”函数 和 用 于 
回归 的 线性 和 多 项 式 函 数 ) 多 少 有 些 不 同 ， 几 个 重要 概念 如 简单 模型 的 线性 组 合 将 再 次 得 到 
广泛 应 用 。 

可 以 把 通用 的 分 布 模型 和 密度 模型 分 成 两 类 : 

1. 参数 模型 : 这 种 模型 采用 一 种 特定 的 函数 形式 。 对 于 实数 值 变量 经 常 使 用 位 置 参 数 OF 
均值 ) 和 范围 (scale) 参数 〈 刻 画 变化 性 ) 来 表征 这 种 函数 一 一 例如 正 态 分 布 和 二 项 式 分 布 
函数 。 参 数 模型 的 优点 在 于 简单 明了 “〔 易 于 估计 和 解释 )， 但 是 可 能 偏差 相对 较 大 ， 因 为 真实 
数据 可 能 不 遵循 假定 的 函数 形式 。 附 录 中 简要 介绍 了 一 些 更 著名 的 参数 密度 和 分 布 模型 。 18 

2.， 非 参数 模型 ， 在 这 种 模型 中 分 布 和 密度 估计 是 数据 驱动 的 ， 事 先 仅 对 函数 形式 作 很 
少 的 假定 。 例 如 可 以 使 用 第 3 BA 6.3.3 中 介绍 的 核 函 数 估计 : 可 以 把 点 x 处 的 局 部 密度 定 
MA x 点 附近 各 点 的 加 权 平 均 。 

如 果 把 上 述 两 种 情况 视 为 极端 情况 ， 那 么 我 们 还 可 以 定义 一 些 界 于 参数 模型 和 非 参 数 模 
型 之 间 的 中 间 模 型 :混合 模型 (mixture model)。 下 面 讨论 该 类 模型 。 


6.4.2 ”混合 模型 
x 的 混合 密度 是 这 样 定 义 的 : 


Ò 


K 
p(x) = > pi (x10, Wy (6.5) 

k=l 
该 模型 把 x 的 整个 密度 (或 者 分 布 ) 分 解 为 K 个 分 量 (component) 或 类 (class) 的 加 
权 线 性 组 合 。 每 个 分 量 密度 p (xl0,) 通常 是 由 一 种 相对 简单 的 参数 模型 〈 参 数 为 pg )〔 比 如 


一 个 正 态 分 布 函数 ) ARK. m, 代表 一 个 随机 抽取 的 数据 点 由 第 个 分 量 产生 的 概率 ， 


$, m =1. 
为 了 说 明 混合 模型 的 概念 ， 考 虑 一 个 用 作 二 维 数据 集 模型 的 单一 正 态 分 布 。 可 以 把 该 分 
布 想像 为 一 种 “对 称 凸 形 函 数 ” 我 们 可 以 在 二 维 空间 确定 其 位 置 和 形状 ， 以 尽 可 能 好 地 模 
拟 数据 集 (参见 图 6-6， 图 中 显示 了 一 个 简单 的 例子 )。 混 合 模型 的 一 种 直观 解释 就 是 它 允 许 
在 二 维 空间 里 使 用 上 个 这 样 的 凸 形 函 数 〈 或 者 分 量 )， 以 逼近 真实 的 密度 。K 个 凸 形 函 数 的 位 
置 和 形状 能 够 彼此 独立 地 确定 。 而 且 我 们 可 以 给 每 一 个 分 量 赋 一 个 权 值 。 如 果 所 有 的 权 值 是 
正 的 而 且 总 和 为 1， 那么 整个 函数 仍然 是 个 概率 密度 函数 〈 见 6.5 式 )。 
随 着 x 的 增 大 ， 混 合 模 型 可 以 具有 非常 灵活 的 函数 形式 ， 因 为 局 部 图 形 函 数 可 用 来 捕捉 
局 部 密度 特征 《这 使 我 们 联想 到 回归 中 的 局 部 建 模 思 想 )。 很 明显 ，k 值 控制 着 模型 的 复杂 
E: 因为 值 越 大 ， 得 到 的 模型 越 灵 活 ， 但 同时 解释 也 越 复杂 、 拟 合 也 越 困难 。 这 又 一 次 验 [185] 
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证 了 通常 的 偏差 -方差 折 惠 规律。 当然 ， 我 们 并 不 只 局 限于 仪 使 用 正 态 分 量 〈 尽 管 实践 当中 
这 经 常 是 最 流行 的 )。 同 样 也 可 以 使 用 指数 和 其 他 密度 形式 的 混合 。 至 于 决定 分 量 位 置 、 形 
状 和 大 值 的 具体 细节 将 在 第 9 章 中 介绍 。 这 里 很 重要 的 一 点 是 混合 模型 提供 了 由 简单 参数 密 
度 模型 《全 局 的 ) 到 这 些 密度 模型 的 加 权 和 的 自然 推广 ， 从 而 可 以 局 部 化 的 匹配 p 维 空间 的 
数据 密度 。 



































图 6-6 混合 模型 示 鲍 。 从 上 至 下 ;《a) 三 个 等 权 值 的 二 元 正 态 分 布 组 成 的 混合 模型 产生 的 数据 点 ， 
(b) 画 为 距离 平均 值 3o 处 等 高 线 的 潜在 分 量 密度 ;《c》 总 的 混合 密度 函数 产生 的 等 高 线 


混合 模型 所 副 含 的 一 般 原理 具有 广泛 的 用 途 ， 这 种 思想 被 应 用 在 概率 建 模 的 许多 领域 。 
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例如 ， 使 用 混合 模型 能 够 很 好 的 捕捉 层次 结构 。 第 8 章 将 讨论 如 何 把 混合 模型 拟 合 到 数据 的 
机 理 ， 在 第 9 章 中 我 们 将 看 到 混合 模型 是 如 何 被 成 功 地 应 用 于 探测 数据 中 的 聚 类 。 

在 模型 解释 方面 ， 要 么 可 以 把 混合 模型 就 当 作 一 个 提供 了 灵活 模型 形式 的 “ 黑 盒子 ”， 
要 么 可 以 给 每 个 混合 模型 的 分 量 一 种 明确 的 解释 。 例 如 与 顾客 数据 相 拟 合 的 每 个 混合 分 量 都 
可 以 被 解释 为 刻画 了 不 同类 型 的 顾客 。 混 合 模型 的 一 种 解释 〈 尤 其 是 在 聚 类 背景 下 ) 是 : 各 
个 分 量 是 由 取 KK 个 值 的 隐 念 变量 产生 的 ， 而 且 预 先 不 知道 各 个 分 量 在 p 维 空间 中 的 位 置 和 
形状 ， 但 可 以 由 数据 来 揭示 。 因 此 ， 混 合 模型 和 投影 追踪 及 相关 的 方法 都 共享 了 一 种 思想 : 
即 假设 一 种 可 能 产生 了 观测 到 数据 的 简单 的 潜在 或 隐 含 结构 。 第 8 和 第 10 章 中 我 们 将 讨论 
如 何 利用 “期 望 -最 大 化 ”(EM) 算法 从 数据 中 学 习 混合 模型 的 参数 。 


6.4.3 ”无 序 范畴 型 数据 的 联合 分 布 


对 于 范畴 型 数据 ， 我 们 可 以 得 到 一 个 按 p 个 变量 的 所 有 可 能 值 的 交叉 相 乘 定义 的 联 
合 分 布 函 数 。 例 如 ， 如 果 变 量 A 取 {a, a, a), Bb, bo}, MAA, 的 联合 分 布 就 有 
六 种 可 能 的 取 值 。 这 里 假定 (为 了 简便 〉 数值 确 实 是 范畴 型 的 而 且 大 小 和 顺序 是 没有 意 
义 的 。 

当 p 的 值 和 变量 值 数 目 很 小 的 情况 ， 以 列 联 表 (contingency table) 单元 格 的 形式 显示 出 
分 布 的 各 个 值 是 很 方便 的 ， 一 个 单元 格 显示 一 个 联合 值 ， 就 像 表 6-1 中 的 例子 所 示 。 但 随 着 
变量 数目 的 增 大 而 且 当 值 的 数量 大 于 4 或 5 时 这 样 做 就 不 现实 了 。 而 且 ， 这 种 列 联 表格 并 不 
能 显示 出 数据 中 可 能 存在 的 潜在 结构 。 例 如 表 6-1 中 的 数据 已 经 经 过 了 特意 的 构造 ， 变 量 是 
彼此 独立 的 ， 但 这 个 事实 并 不 能 马上 从 表格 中 看 出 来 。 


表 6-1 ”二 维 范畴 型 数据 的 简单 列 联 表 ， 关 于 接受 痴呆 诊断 的 患者 的 数据 集 〈 经 过 了 人 为 调整 ) 





与 数值 型 变量 的 情况 相 比较 ， 范 畴 型 变量 中 的 类 别 是 无 序 的 ， 因 此 不 存在 平滑 概率 函数 
的 概念 。 因 此 如 果 所 有 的 变量 都 具有 m 个 可 能 值 的 话 ， 那 么 为 了 完整 地 确定 一 个 模型 ， 我 
们 就 必须 确定 m- 1 个 相对 独立 的 概率 值 。 很 明显 ， 随 着 p 和 m 的 增 大 ， 这 将 迅速 变 得 难 
以 实现 。 下 一 小 节 将 探讨 构建 分 布 和 密度 函数 的 系统 技术 ， 以 寻找 一 种 经 济 的 方式 来 描述 高 
维 数据 。 


6.4.4 ” 因 式 分 解 和 高 维 空 间 中 的 独立 性 


在 分 布 和 密度 估计 中 空间 的 维度 是 一 个 根本 性 的 难题 。 随 着 x 维度 一 一 空间 的 增长 ， 构 
建 完全 确定 fully specified) 的 模型 结构 的 难度 也 迅速 增 大 ， 因 为 模型 结构 的 复杂 度 往往 按 
照 空间 维度 的 指数 增长 〈 本 章 前 面 提 到 的 维度 效应 )。 

因 式 分 解 〈factorization) 把 密度 函数 分 成 更 加 简单 的 组 成 部 分 ， 它 提供 了 一 种 为 多 元 数 
据 构建 简单 模型 的 通用 技术 。 这 是 一 种 简单 有 力 的 方法 ， 它 贯穿 于 整个 多 元 数据 建 模 过 程 中 。 
例如 ， 如 果 假 定 每 个 变量 是 相互 独立 的 ， 那 么 我 们 就 可 以 把 联合 密度 函数 写成 : 


186 
l 


187 


p 
P(X) = para [are (6.6) 
k=l 


这 里 x = (xp eo x) EX, A. EMAL, WENA E E 
比 为 它们 的 联合 密度 建 模 更 容易 。 注 意 log p(g 的 独立 模型 具有 可 加 的 (additive) 形式 ， 这 
让 我 们 想起 了 回归 中 的 线性 可 加 模型 结构 。 

因 式 分 解 固然 使 事情 简单 了 许多 ， 但 这 是 以 建 模 的 代价 换 来 的 。 变 量 相互 独立 的 假定 在 
许多 实际 问题 中 甚至 连 近似 正确 都 做 不 到 。 因 此 ， 完 全 的 独立 假定 本 质 上 是 一 个 极端 〈 最 低 
难度 )， 另 外 一 个 极端 〈 最 高 难度 ) 是 完全 确定 的 联合 密度 模型 。 当 然 我 们 不 一 定 要 刻意 选 
择 这 个 难度 范围 的 极端 情况 ， 相 反 ， 我 们 可 以 选择 介 于 二 者 之 间 的 情况 。 联 合 概率 函数 pa) 
通常 可 以 写成 : 


P 
p(x) = P(x] | pe ae) (6.7) 


k=2 

公式 的 右边 把 联合 函数 分 解 成 一 系列 条 件 分 布 。 现 在 ， 我 们 可 以 试 着 给 这 些 条 件 分 布 分 
别 建 模 。 很 多 时 候 可 以 进行 相当 大 的 简化 ， 因 为 每 一 个 变量 OX, 只 依赖 于 它 的 几 个 前 驱 。 也 
就 是 说 ， 在 第 个 变量 的 条 件 分 布 中 ， 经 常 可 以 忽略 一 些 变量 X，…，X1。 这 种 因 式 分 解 
可 以 用 直观 的 图 形 来 表示 ， 每 一 个 节点 对 应 于 一 个 变量 ， 每 一 条 边 表 示 变 量 间 的 相互 依赖 关 
系 。 因 此 指向 第 个 变量 的 节点 的 边 势必 来 自 变量 x s Xa 很 自然 的 ， 这 些 变量 被 称 
为 变量 me 的 双亲 (parents). 

为 了 寻找 这 种 简化 的 因 式 分 解 形式 ， 有 时 我 们 必须 通过 把 不 同 的 模型 拟 合 到 数据 来 试 
验 。 在 其 他 情况 下 ， 可 以 从 数据 结构 中 就 明显 地 看 出 这 种 简化 一 一 例如 变量 代表 的 是 对 同一 
属性 的 一 系列 测量 〈 比 如 在 不 同 的 时 间 )。 这 种 情况 下 马尔 可 夫 链 模型 往往 是 很 合适 的 
在 这 种 模型 中 ， 把 对 第 大 个 变量 有 关 的 所 有 前 面 信息 限制 在 与 其 紧邻 的 前 一 个 变量 上 《从 而 
公式 6.7 中 的 因 式 被 简化 为 p(x bx ,X41)= px 1xk-1) )。 图 6-7 显示 了 一 阶 马 尔 可 夫 链 
模型 的 模型 结构 。 





图 6-7 ”对 应 于 一 阶 马尔 可 夫 假 定 的 模型 结构 图 形 


用 于 描述 概率 模型 的 图 形 (比如 图 6-7) 经 常 被 称 为 图 形 模型 (graphical model)。 在 下 
面 的 讨论 中 ， 我 们 把 焦点 特别 集中 在 无 环 有 向 图 的 一 个 被 广泛 使 用 的 子 集 上 在 计算 机 科学 
中 作为 概率 模型 使 用 时 ， 有 时 被 称 为 信念 网 络 (belief network))。 值 得 注意 的 是 ， 这 种 图 表 
示 法 强调 了 模型 结构 的 独立 性 (例如 ， 可 以 从 图 6-7 中 看 出 这 一 点 )， 但 是 却 没 有 指定 父子 
关系 的 实际 函数 形式 和 数值 参数 ， 

下 面 再 举 一 个 图 形 模型 例子 ， 考 虑 以 下 三 个 变量 ; 年 龄 、 教 育 程 度 和 秃顶 〈 一 个 人 是 否 
秃顶 )。 很 显然 ， 年 龄 不 可 能 依赖 于 其 他 两 个 变量 中 的 任 一 个 。 相 反 ， 不 论 是 教育 程度 还 是 
秃顶 都 直接 依赖 于 年 龄 。 此 外 ， 在 已 知 年 龄 的 情况 下 ， 教 育 程度 和 秃顶 情况 彼此 直接 依赖 是 


日 ”译注 原著 此 处 为 丸 ， 当 属 印 刷 错误 。 
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不 合 情 理 的 一 一 换言之 ， 一 旦 知道 了 一 个 人 的 年 龄 ， 那 么 他 是 否 秃顶 并 不 表示 他 的 受 教育 程 
度 的 高 低 《〈 反 之 亦 然 )。 另 一 方面 ， 如 果 不 知道 一 个 人 的 年 龄 ， 那 么 秃顶 往往 可 以 提供 一 些 
教育 程度 的 信息 《〈 例 如 秃 项 的 人 很 可 能 年 龄 较 大 ， 进 而 又 很 可 能 具有 大 学 文 任 )。 图 6-8 w 
示 了 这 样 的 一 个 图 形 模型 。 


年 龄 


教育 程度 EM 
图 6-8 ”一 种 可 能 的 图 形 模型 结构 。 变 量 受 教育 程度 和 秃顶 情况 在 已 知 年 龄 的 情况 下 是 条 件 独 立 的 


可 以 进一步 拓展 这 种 思想 ， 假 定 存在 观察 不 到 的 隐 含 或 潜在 变量 ， 这 些 变量 能 够 解释 在 
数据 中 观察 到 的 许多 相互 关系 。 图 6-9 给 出 了 这 样 一 个 例子 。 在 这 个 模型 结构 中 引入 了 一 个 
潜在 的 变量 作为 中 间 变 量 ， 这 样 简 化 了 观测 数据 之 间 的 关系 “此 处 是 医疗 症状 ) 和 潜在 的 因 
果 因 素 ( 此 处 是 两 种 相互 独立 的 疾病 )。 以 这 种 方式 引入 隐 合 变量 可 以 起 到 简化 模型 结构 中 
关系 的 作用 ， 比 如 如 果 给 定 了 这 个 中 间 变 量 的 值 ， 那么 症状 就 变 成 独立 的 了 。 然 而 在 实践 中 ， 
我 们 必须 对 应 该 向 模型 结构 中 引入 多 少 个 中 间 变 量 持 慎重 的 态度 ， 以 避免 把 虚假 的 结构 引入 
到 拟 合 模型 中 。 此 外 ， 正 如 我 们 将 要 在 第 8 章 、 第 9 章 中 看 到 的 ， 对 于 带 有 隐 含 变量 的 情况 
参数 估计 和 模型 选择 都 是 非常 繁琐 的 。 


疾病 Yi KAY 观察 到 的 

HAER Z BaN 

XX XX XX, a 
症状 


图 6-9 ”关于 一 个 疾病 问题 的 图 形 模型 结构 。 两 种 疾病 是 边缘 《绝对 独立 的 ， 单 一 
的 中 间 变 量 Z 直 接 依赖 于 两 种 疾病 ， 给 定 Z 的 情况 下 六 个 症状 变量 是 条 件 独立 的 


在 分 类 和 聚 类 中 ， 假 定 对 于 分 类 变量 的 给 定 值 其 他 变量 互相 条 件 独立 会 带 来 很 多 方便 。 
也 就 是 : 


P 
paiy=| [ry (6.8) 
j=1 


其 中 y 是 特定 的 〈 范 畴 性 的 ) 分 类 值 。 这 就 是 63.5 节 分 类 建 模 中 介绍 的 条 件 独立 〈“ 朴 素 ”) 
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贝 叶 斯 模型 。 图 6-10 中 画 出 了 这 类 模型 的 图 形 表示 。 
Y 组 


X, X: X; X, X; Xa 


图 6-10 一 阶 贝 叶 斯 图 形 模 型 结构 。 图 中 画 出 了 一 个 分 类 变量 Y 和 六 个 条 件 独立 的 特征 变量 X，…，X 
公式 6.8 也 可 以 用 于 如 下 情况 : 了 是 一 个 为 了 简化 模型 p(x) 而 引入 的 未 观测 到 《 隐 含 的 ， 
潜在 的 ) 变量 ， 也 就 是 我 们 可 以 得 到 一 个 如 下 形式 的 有 限 混 合 模 型 : 


K 2 
p= > [r;a y=) p= (6.9) 
k=l jal 
其 中 了 取 天 个 值 ， 并 且 是 用 公式 6.8 的 条 件 独 立 假定 对 每 一 个 分 量 p(xl y = 月 建 模 的 。 举 例 
来 说 ， 我 们 可 以 以 这 种 方式 对 顾客 如 何 购买 p 种 产品 的 联合 分 布 建 模 。 按 照 这 一 模型 如 果 一 
个 顾客 属于 特定 的 分 量 k， 那 么 他 购买 特点 产品 子 集 的 似 然 ， 也 就 是 pj(wii y = 月 ， 会 随 产品 
子 集 国 的 增 大 而 增 大 。 这 样 尽管 产品 (x%) 是 被 按照 在 给 定 y= 上 时 条 件 独立 建 模 的 ， 但 是 混 
合 模型 单 凭 在 特定 分 量 中 某 些 产 品 会 以 高 概率 同时 出 现 这 一 事实 归纳 出 了 绝对 (边缘 ) 独 
立 。 从 效果 上 讲 ， 隐 含 变量 了 的 作用 是 把 变量 x 组织 到 均等 的 《equivalence〉 各 个 类 别 ， 在 
每 一 个 类 别 中 按照 条 件 独 立 对 变量 建 模 。 按 这 种 方式 使 用 隐 含 变量 是 一 种 很 有 力 的 建 模 技 
术 ， 在 第 9 章 中 我 们 将 回 到 这 个 话题 作 更 详细 的 讨论 。 


6.5 维度 效应 


在 很 多 地 方 我 们 都 注意 到 在 一 维 情况 下 工作 很 好 的 模型 并 不 能 很 好 的 被 扩展 到 多 维 情 
况 。 特 别 是 在 参数 或 函数 估计 时 ， 要 保持 一 定 的 准确 度 ， 需 要 的 数据 量 随 维 数 的 增 大 呈 指 数 
增长 。 有 时 这 被 称 为 “维度 效应 ”。 因 为 数据 挖掘 者 经 常 对 在 高 维度 问题 中 寻找 模型 或 模式 
很 感 兴趣 ， 所 以 这 个 概念 是 很 重要 的 。 注 意 是 否 达到 了 “高 维 ” 的 程度 依赖 于 有 关 模 型 的 复 
杂 度 和 现 有 数据 的 数量 ， 最 少 可 能 是 p = 10 个 变量 ， 最 多 可 达 p = 1000 个 变量 或 更 多 。 


Bj 6.4 下 面 的 例子 摘自 Silverman ( 1986 )， 它 有 力 地 说 明了 在 高 维 情况 下 进 
行 密度 估计 的 难度 。 考虑 由 多 元 正 态 密 度 函 数 ( 具有 单位 协 方差 矩阵 ， 均 值 为 〈0， 
0，.…，0)) 模拟 出 的 数据 ( 参见 附录 多 元 正 态 密度 函数 的 定义 )。 假 定 在 核 函 数 密 
度 估 计 中 ， 是 通过 最 小 化 在 均值 处 的 平均 误差 平方 来 选取 带宽 h. Silverman 计算 
了 为 了 保证 以 下 要 求 所 需 的 数据 点 数 : 在 0 点 的 相对 平均 误差 平方 小 于 0.1， 也 就 


是 当 x=0 时 EO- p(X)) /p(x) <0.1, EP pGO 是 真实 的 正 态 密度 ， P(x) 是 


用 具有 最 佳 带宽 参数 的 正 态 核 估计 估计 出 的 值 。 因 此 ， 我 们 所 分 析 的 是 比较 “简单 ” 
的 估计 问题 : 利用 正 态 核 估计 估计 最 频 值 (平均 来 说 此 处 的 点 最 密集 ) 处 的 正 态 密 
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FE (相对 精度 在 10% 以 内 ) 一 一 还 有 比 这 更 简单 的 吗 ? Silverman 指出 数据 点 的 数 
量 呈 指数 增加 。 一 维 的 情况 需要 4 个 点 ， 二 维 需 要 19 个 点 ， 三 维 需要 67 个 点 ， 六 
维 需要 2790 个 点 ， 到 了 十 维 大 约 需 要 842 000 个 点 。 对 于 如 此 简单 的 问题 ， 这 样 
的 数据 点 数量 太 惊 人 了 1! 从 这 个 例子 中 应 该 看 到 ,， 随 维度 的 增 大 ， 密 度 估计 问题 (也 
包括 其 他 数据 挖掘 问题 ) 的 难度 将 急剧 增 大 。 


对 付 高 维度 问题 有 两 种 基本 〈 而 且 相当 明显 ) 的 策略 。 第 一 种 是 使 用 有 关 变 量 的 子 集 来 
构建 模型 。 也 就 是 寻找 一 个 p' 个 变量 的 子 集 ， 这 里 p' << P; 第 二 种 办 法 是 把 p 个 原始 变量 变 
换 为 p' 个 变量 ， 这 里 同样 p << p。 这 种 途径 的 例子 包括 主 分 量 分 析 方 法 、 投 影 追踪 方法 、 和 
神经 网 络 方法 。 


6.5.1 高 维 数据 的 变量 选择 


在 处 理 高 维 问题 的 时 候 ， 变 量 选择 是 一 种 相当 通用 《〈 而 又 敏感 ) 的 策略 。 考 虑 这 样 一 个 
例子 ， 用 变量 X,，…，X%, 预 测 变 量 Y。 很 多 时 候 并 不 是 所 有 的 个 变量 都 是 准确 预测 所 必需 
的 。 有 些 变量 X 可 能 跟 被 预测 变量 Y 没有 丝毫 联系 〈 比 如 某 人 生日 的 月 份 不 可 能 与 他 的 信 
用 度 有 任何 关系 )。 也 可 能 存在 两 个 或 更 多 的 变量 包含 同样 的 预测 信息 ， 从 这 个 意义 上 讲 ， 
有 些 变量 是 宛 余 的 。( 例 如 税 前 工资 和 税 后 工资 很 可 能 是 高 度 相关 的 。) 

可 以 使 用 独立 概念 (第 3 章 中 介绍 过 ) 来 以 定量 方式 衡量 相关 性 〈relevance)。 例 如 ， 
如 果 plx) = pO) 对 所 有 的 y 和 x 都 成 立 的 话 ， 那 么 目标 变量 了 就 独立 于 输入 变量 X。 如 果 
ple x) = p(ylx2)， 那 么 如 果 已 经 知道 X, 的 值 ，Y 就 独立 于 XX。 当然 在 实践 当中 不 一 定 能 够 
根据 有 限 的 样本 确定 出 哪些 变量 是 独立 的 ， 哪 些 不 独立 ， 也 就 是 说 ， 我 们 要 估计 这 种 影响 。 
进一步 来 说 ， 我 们 所 感 兴趣 的 不 仅 是 严格 的 独立 与 不 独立 ， 而 旦 还 对 独立 的 程度 感 兴趣 。 因 
此 ， 我 们 可 以 《比如 说 ) 按照 估计 出 的 每 个 X 变量 和 了 了 的 线性 相关 系数 来 评价 Crank) 这 个 
变量 的 重要 性 ， 线 性 相关 系数 可 以 告诉 我 们 估计 出 的 线性 依赖 性 。 如 果 Y 是 范畴 型 的 (就 
像 分 类 中 那样 )， 那 么 我 们 可 以 衡量 Y 和 XX 之 间 的 平均 相互 关系 信息 《如 下 式 ) 以 给 出 对 XX 
和 了 之 间 依 赖 性 的 估计 。 


pO P(x)) 


这 里 和 是 范畴 型 变量 〈 例 如 一 个 实数 值 变量 X 的 量子 化 版 本 )。 

然而 单个 变量 X 与 了 的 相互 作用 不 一 定 给 出 变量 集合 与 了 之 间 相互 作用 的 所 有 信息 。 
一 个 经 典 的 例子 是 布尔 变量 的 奇偶 校 验 函 数 ， 这 个 函数 是 这 样 定 义 的 : REX, o X, 
的 值 〈 二 进 制 的 ) 的 和 是 偶数 ， 那 么 了 为 1， 否则 为 0。 这 里 Y 独立 于 所 有 个 别 X 变量 ， 但 
却 是 整个 变量 集合 的 确定 性 函数 。 尽 管 这 是 一 个 多 少 有 些 偏激 的 例子 ， 但 它 表明 如 果 只 注重 
个 别 氏 变量 和 YY 之 间 的 一 对 一 相互 作用 ， 那 么 这 种 不 可 加 非 线性 (non-linear non-additive) 
的 相互 作用 就 被 掩盖 了 。 因 此 ， 在 一 般 情 况 下 ， 分 别 评 出 的 《比如 用 相关 法 评定 的 ) 个 最 
住 久 变量 所 组 成 的 集合 不 等 于 容量 为 的 X 变量 最 佳 集合 。 因 为 p 个 变量 的 非 空子 集 有 X- 
1 个 ， 除 非 p 很 小 否则 穷 举 搜索 是 不 可 行 的 。 同 样 糟 炎 的 是 ， 对 许多 预测 问题 ， 还 不 存在 其 
最 差 搜索 时 间 好 于 O (27) 的 优化 搜索 算法 (从 确保 找到 最 佳 变 量 集合 的 意义 上 来 说 )。 

这 意味 着 在 实践 中 子 集 选择 方法 往往 依赖 于 启发 式 搜索 来 找到 好 的 模型 结构 。 很 多 算法 


I(Y:X) = Dplyi,x))log (6.10) 
ij 
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FET fH AAS ea EAT AE” MEF, teen nT. ER 8 章 中 我 们 将 回 过 头 
来 探讨 这 种 搜索 问题 。 


6.5.2 ”高 维 数据 的 变换 


处 理 高 维 数据 的 第 二 种 通用 策略 是 对 预报 变量 进行 变换 (transforming). KERHANE 
想 就 是 寻找 一 个 舍 有 p' 个 变量 ( 称 之 为 Z e W WES, REW p' 远 小 于 p， 变 量 Z 定 
义 为 原始 变量 X 的 函数 ， 变 量 Z 的 选择 原则 是 从 某 个 意义 上 讲 使 其 成 为 适合 具体 任务 的 p' 个 
变量 的 最 佳 集合 。 

这 种 通用 的 模式 一 一 用 对 当前 任务 更 加 重要 的 较 少 变量 取代 观测 变量 在 数据 分 析 的 
很 多 不 同 分 支 中 经 常 出 现 。 对 Z 的 称呼 在 不 同情 况 下 有 所 不 同 ， 有 基 函 数 (basis function). 
因素 (factor), ÆRE atent variable)、 主 分 量 (principal component) 等 等 ， 依 赖 于 具 
体 的 目标 和 为 了 推导 它们 而 使 用 的 方法 。 在 后 续 的 章节 中 我 们 将 详细 的 分 析 这 些 模型 〈 以 及 
与 它们 相关 的 拟 合 算法 )， 这 里 我 们 仅 通过 两 个 例子 说 明 这 种 基本 思想 ; 

@ 投影 追踪 回归 (projection pursuit regression) 使 用 如 下 形式 的 模型 结构 ; 





> 
$= Dwjh(o x) (6.11) 
j= 


其 中 ?x 是 向 量 x 在 第 j 个 权 向 量 a 上 的 投影 (两 个 向 量 都 是 p 维 的 ， 结 果 得 到 一 个 标 


EARD, h 是 这 个 标量 投影 的 非 线 性 函数 ，w; 是 非 线 性 函数 的 标量 权 。 确 定 wp h 的 形式 
和 “投影 方向 ”w 的 过 程 是 比较 复杂 而 且 依赖 于 具体 算法 的 ， 但 内 在 的 思想 非常 普通 的 。 
本 质 上 这 就 是 神经 网 络 (第 11 章 将 详细 讨论 ) 的 模型 结构 形式 ， 举 例 来 说 ， 在 神经 网 
中 通常 把 万 的 函数 形式 选择 为 户 (1) =1 (1l+e* )。 这 类 模型 的 一 个 局 限 是 非常 难于 解释 ， 除 
dE p' = 1。 另 一 个 局 限 是 估计 这 些 模型 参数 的 算法 在 计算 方面 非常 复杂 而 且 对 于 庞大 的 数据 
集 可 能 难以 实现 。 在 第 11 章 中 我 们 将 深入 探讨 这 一 族 模型 。 
© 主 分 量 分 析 〈principal component analysis): 我 们 在 第 3 章 中 介绍 过 主 分 量 分 析 
(PCA)。 这 是 一 种 经 典 的 技术 ， 它 把 p 个 原始 的 预报 变量 替换 为 含 p 个 变量 的 另 一 
个 集合 (Zo 4o Z) ZE Z 是 由 原始 变量 的 线性 组 合 形成 的 。 组 成 原始 数据 集 的 
原始 向 量 被 映射 到 Z 空间 中 的 新 向 量 ， 而 且 正 如 第 3 章 中 所 描述 的 ， 定 义 Z 的 权 集 
合 的 选择 目标 是 使 按 这 些 新 变量 表达 的 原始 数据 集 的 方差 最 大 。 因 而 主 分 量 分 析 是 
投影 追踪 一 种 特例 ， 只 不 过 投影 索引 是 沿 投影 方向 的 方差 。 主 分 量 分 析 作为 一 种 数 
据 归 约 技术 有 两 个 优点 。 首 先 它 顺序 抽取 X 空间 中 的 数据 的 绝 大 部 分 方差 ， 因 此 可 
以 期 望 仅仅 前 面 几 个 分 量 〈 远 小 于 全 部 原始 变量 的 数目 ) 就 包含 了 数据 的 大 部 分 信 
息 。 其 次 ， 根 据 分 量 抽取 的 方式 ( 见 第 3 章 ) 可 以 得 出 它们 是 正 交 的 ， 因 而 解释 很 
方便 。 然 而 ， 应 该 注意 的 是 X 空间 中 的 主 分 量 对 于 优化 预测 不 同 变量 Y (举例 来 说 》 
的 性 能 来 说 不 一 定 是 理想 的 投影 方向 。 比 如 ， 当 我 们 要 为 数据 中 的 组 〈 或 能 ) 间 差 
异 建 模 时 〈 目 的 是 分 类 或 聚 类 )， 主 分 量 投影 不 一 定 突出 组 间 差 异 ， 而 且 实际 上 可 能 
隐藏 这 些 差异 。( 这 对 于 更 一 般 的 投影 追踪 法 也 是 基本 适用 的 )。 尽 管 如 此 ，PCA 是 
一 种 广泛 使 用 的 维度 归 约 工具 。 还 有 很 多 其 他 的 维度 归 约 技术 (各 有 不 同 的 特性 )， 
包括 因素 分 析 (第 4 章 )、 投 影 追 踪 (第 11 章 和 上 文 )、 独 立 分 量 分 析 等 等 。 
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6.6 用 于 结构 化 数据 的 模型 


许多 情况 下 ， 事 先 已 经 知道 个 体 、 变 量 或 二 者 均 具 有 某 种 定义 完备 的 关系 。 例 如 线性 链 
或 序列 (sequences) (测量 值 是 有 序 的 ， 比 如 蛋白 质 序列 )、 时 间 序 列 (time series) (测量 什 
按时 间 排 序 ， 或 许 相同 的 时 间 间 隔 ) 和 空间 或 图 像 数 据 〈 测 量 数据 是 定义 在 空间 棚 格 上 的 )。 
有 时 甚至 有 更 复杂 的 数据 结构 。 例 如 在 医学 领域 ， 人 们 可 以 得 到 不 同时 间 反 复 测量 的 三 维 栅 
格 脑 部 图 像 数 据 。 

这 些 结构 化 的 数据 与 本 章 其 他 地 方 讨论 的 测量 值 类 型 有 着 固有 的 差异 。 直 到 现在 我 们 一 
直 隐 含 地 假定 数据 集中 的 二 个 对 象 个 体 〈 蛋 白质、 顾客 等 ) 是 从 潜在 群体 中 随机 抽取 的 数据 
样本 。 特 别 地 ， 我 们 一 直 假定 ， 对 于 给 定 的 拟 合 模型 ， 测 量 向 量 Xi(1 <i < 六 是 彼此 条 
件 独立 的 〈 也 就 是 说 ， 数 据 的 似 然 可 被 表达 为 单个 PCxG) 的 乘积 )。 例 如 ， 如 果 我 们 说 体重 
这 个 变量 服从 正 态 密度 模型 ， 那 么 我 们 就 假定 了 知道 某 个 人 的 体重 并 没有 得 到 数据 集中 其 他 
人 体重 的 任何 信息 。( 当 然 这 里 忽略 了 可 能 存在 的 细微 的 依赖 关系 ， 比 如 数据 集中 同一 个 家 
庭 的 成 员 是 顺序 出 现 的 ， 他 们 可 能 有 相同 的 过 重 或 过 轻 倾向 ) 因此 ， 尽 管 上 述 假定 是 一 种 
近似 ， 但 是 我 们 一 直 工 作 在 这 个 假定 上 ， 对 于 很 多 实际 情况 这 个 假定 是 很 有 价值 的 。 

然而 在 有 些 问 题 中 依赖 关系 是 很 明确 的 ， 因 此 需要 对 其 建 模 。 例 如 ， 在 24 小 时 内 每 隔 
5 分 钟 测量 一 次 某 人 的 血压 ， 很 显然 在 连续 测 得 的 数据 中 非常 可 能 存在 依赖 关系 ， 那 么 怎样 
为 这 种 依赖 性 建 模 昵 ? 

一 种 途径 是 利用 预期 的 变量 间 关 系 把 对 每 个 对 象 的 多 个 观测 减少 到 一 个 或 少数 几 个 变量 

( 即 固定 的 多 元 描述 x)。 这 种 方法 有 时 被 称 为 特征 提取 法 。 例 如 我 们 可 能 预期 由 于 某 种 药 
物 开 始 起 作用 ， 血 压 值 会 在 24 小 时 内 下 降 ， 因 而 可 以 仅 用 两 个 变量 (分 别 表示 初始 值 和 线 
性 趋势 的 下 降 斜 率 ) 来 代替 对 每 个 人 的 60 次 观测 。 或 者 使 用 同样 的 原则 使 用 一 条 曲线 来 拟 
合 下 降 率 相对 时 间 降 低 的 情况 。 然 后 可 以 用 标准 方法 分 析 描 述 每 个 对 象 曲 线 的 数字 经 常 被 
称 为 衍生 变量 )。 

注意 这 种 途径 (把 序列 化 的 测量 值 转化 为 非 序列 化 的 向 量 表示 ) 可 能 足以 完成 有 些 给 定 
的 数据 挖掘 任务 ， 但 是 通常 这 个 过 程 存在 信息 损失 ， 即 丢失 了 原始 测量 数据 中 具有 的 时 间或 
顺序 信息 。 对 于 有 些 应 用 ， 这 种 序列 化 的 信息 可 能 是 至 关 重 要 的 。 举 例 来 说 ， 假定 有 一 个 网 
页 用 户 总 体 ， 在 这 个 总 体 中 有 一 组 用 户 总 是 顺序 地 从 网 页 A 浏览 到 B， 再 到 C， 并 按 这 个 顺 
序 反 复 重 复 。 如 果 我 们 将 这 种 信息 转化 为 被 访问 网 页 的 直方 图 (得 到 一 幅 具 有 三 个 大 致 相同 
柱 条 的 直方 图 )， 那 么 就 失去 了 发 现 潜在 于 数据 中 的 动态 循环 模式 的 能 力 。 

下 面 着 虑 一 个 序列 化 数据 模型 的 例子 ， 也 就 是 用 于 个 序列 化 观测 数据 点 《yl，…，y7) 
的 一 阶 马尔 可 夫 模 型 。 注 意 即 使 是 对 于 一 个 中 等 大 小 的 了 值 ， 对 pO o y7) 的 完整 联合 
密度 估计 也 将 是 非常 复杂 的 (举例 来 说 ， 如 果 了 取 m 个 离散 值 的 话 ， 那么 这 个 估计 将 需要 
确定 O Cn") 个 数字 )。 因 此 在 为 具有 一 定 结构 的 数据 建 模 中 ， 可 以 直接 利用 上 一 小 节 介 绍 
的 因 式 分 解 思 想 ， 也 就 是 说 ， 数据 的 结构 会 为 我 们 要 建立 的 模型 暗示 出 一 种 自然 的 结构 。 
此 ， 我 们 再 回 到 一 阶 马尔 可 夫 模 型 ， 定 义 如 下 : 


T 
PO In) = POW] PO») (6.12) 
t=2 
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oO 
wo 


O 


128 Boe 


如 果 做 出 平稳 (stationarity) 假定 的 话 ， 也 就 是 模型 中 的 概率 函数 不 依赖 于 特定 的 时 间 r, 
即 p(yly -D = PCx1y-D， 那 么 我 们 可 以 大 大 简化 这 个 模型 这样， 就 可 以 把 同一 个 条 
件 概率 函数 用 在 序列 的 不 同 部 分 ， 这 就 大 大 地 减少 了 建 模 需要 的 参数 数量 。 例 如 ， 如 果 了 是 
m7 (mary) 的 ， 那 么 非 平稳 模型 需要 ONT SH 〈 序 列 中 每 个 时 间 点 一 个 由 x m 的 条 
件 概率 矩阵 )， 而 平稳 模型 只 需要 O(mD) 个 概率 (整个 序列 使 用 一 个 m x m 的 条 件 概率 矩阵 )。 
平稳 的 概念 还 可 用 于 更 一 般 的 马尔 可 夫 模型 ， 并 不 限于 上 述 的 一 阶 模型 ， 而 且 事实 上 还 可 以 
很 自然 的 拓展 到 空间 数据 模型 (对 于 空间 的 情况 我 们 将 假定 是 相对 空间 平稳 ， 而 不 是 相对 时 
间 )。 如 果 做 出 平稳 假设 的 话 ， 那 么 我 们 就 不 能 把 在 统计 模型 中 的 变化 表示 为 时 间或 空间 的 
函数 了 。 然 而 从 参数 化 的 角度 来 看 ， 平 稳 假定 是 有 很 多 好 处 的 ， 因 此 它 是 建 模 中 一 种 非常 有 
用 而 且 可 行 的 假定 一 一 我 们 在 以 下 的 所 有 讨论 中 都 采用 此 假定 ， 除 非 有 特别 说 明 。 

对 式 6.12 中 的 马尔 可 夫 模型 有 一 种 简单 的 产生 式 解释 〈 见 图 6-7， 用 y 取代 x)。 序 列 中 
的 一 个 值 是 根据 某 个 初始 分 布 po) 随 机 抽取 的 。 当 yy 确定 下 来 以 后 ， 可 以 根据 条 件 密度 
函数 poy BASLE + = 2 时 的 值 。 按 这 种 方式 确定 了 六 以 后 ， 再 由 POE 为 ， 如 此 下 
去 直到 时 间 7。 

马尔 可 夫 模型 假定 是 很 强大 的 《正如 我 们 在 6.4.4 节 中 所 讨论 的 )。 简 单 来 说 ， 就 是 假 
定 过 去 的 影响 可 以 完全 被 -1 时 的 了 值 所 概括 。 特 别 的 ， 革 没有 “远程 ”的 依赖 性 ， 其 仅 
依赖 于 7,。 很 显然 在 许多 情况 下 这 个 模型 不 够 准确 。 例 如 ， 考 虑 为 英文 文本 的 语法 结构 
建 模 ，Y 取 值 为 动词 、 形 窜 词 或 名 词 等 等 。 在 这 里 一 阶 马 尔 可 夫 假定 显得 力不从心 ， 比 如 
说 ， 因 为 确定 动词 的 单 复数 要 看 主语 的 形式 ， 所 以 要 在 句子 中 进一步 向 后 追溯 ， 而 不 仅 是 
向 后 一 个 单词 。 

对 了 取 实数 值 的 情况 ， 马 尔 可 夫 模 型 通常 被 确定 为 正 态 条 件 分 布 : 


2 Oo 


这 里 g(y -1 充当 了 正 态 分 布 均值 的 角色 〈 它 是 联系 现在 六 和 过 去 yi 的 确定 性 函数 )， 
0 是 模型 中 的 噪声 〈 这 里 做 了 平稳 假定 )。 通 常 把 函数 8 选 为 y, 的 线性 函数 ，80x-D = oo + 
wy-l， 这 就 产生 了 著名 的 一 阶 自 回归 模型 〈first-order autoregressive model ): 

VF Aot Aya te (6.14) 

其 中 e 是 均值 为 0 标准 差 为 c 的 高 斯 噪声 ，wo Mo, 是 模型 的 参数 。 注 意 在 这 些 假定 下 ， 可 
以 把 公式 6.14 表达 成 公式 6.13 的 形式 。 

从 产生 式 角度 来 看 ， 对 公式 6.14 有 一 种 简单 的 解释 : 在 序列 中 时 间 : 处 的 值 是 通过 取 
前 驱 值 y RUŽE w， 加 上 偏 移 量 we， 再 加 上 随机 噪声 e 得 到 的 。 要 使 y 保持 稳定 ( 当 t 
一 o 时 有 界 )， 那 么 必须 -1 < al < 1。lwl 越 接近 1， 相 继 y 值 之 间 的 依赖 性 越 强 ， 反 之 越 弱 。 
这 一 模型 结构 明显 与 6.3 节 中 讨论 的 标准 回归 模型 结构 有 着 密切 的 关系 。 只 不 过 Y 不 再 是 在 
独立 的 氏 值 上 回归 ， 而 是 在 自身 的 “过 去 ” 值 上 回归 。 于 是 ， 根 据 回归 模型 结构 的 知识 ， 我 
们 立即 可 以 想到 很 多 种 推广 上 述 一 阶 模型 的 方法 。 例 如 y 可 以 依赖 于 序列 中 更 早 的 过 去 值 ; 
用 gO yo “o YABR 6.13 中 时 间 # 的 均值 gCy,1)， 这 就 是 k 阶 马尔 可 夫 模 型 。 通 党 
仍然 是 把 SO Yey °°" yp) AAEREN ao + Yay; a 原则 上 除了 线性 模型 
以 外 ， 还 可 以 采用 6.3 节 中 讨论 的 任何 一 种 函数 形式 ， 比 如 可 加 模型 、 多 项 式 模型 、 局 部 线 
性 模型 和 数据 驱动 局 部 模型 等 等 。 


1 lfy,- 2 
N a 280 | (6.13) 
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对 目前 为 止 我 们 所 讨论 的 马尔 可 夫 模 型 的 一 种 进一步 的 重要 推广 是 对 隐藏 状态 变量 的 概 
念 显 式 建 模 。 关 于 时 间 序 列 模型 和 空间 模型 隐 含 状态 的 一 般 概念 在 工程 和 科学 研究 中 很 普 
遍 ， 而 且 在 许多 函数 模型 中 反复 出 现 。 这 种 结构 的 具体 例子 包括 隐 马 尔 可 夫 模 型 HMM) 
和 Kalman 滤波 器 。 通 过 观察 HMM 的 对 应 图 形 模型 结构 ( 见 图 6-11) 很 容易 解释 它 的 结构 。 
从 产生 式 的 角度 看 ， 一 阶 HMM 结构 是 这 样 工作 的 〈 沿 着 链条 从 左 到 右 移动 产生 观测 点 )。 
隐 含 变量 是 范畴 型 的 〈 对 应 于 m 个 离散 状态 )， 而 且 是 一 阶 马 尔 可 夫 的 。 因 此 ，x 是 按 一 般 
的 一 阶 马 尔 可 夫 链 方式 从 条 件 分 布 函数 pol x 1) 中 通过 抽样 的 产生 的 , RE pol x) mxm 
的 条 件 概 率 和 矩阵 。 产 生 了 在 时 间 点 1 的 状态 ( 值 为 %) 后 ， 就 可 由 概率 函数 pO, 产生 观测 
IÈ yo y 可 以 是 一 元 也 可 以 是 多 元 的 ， 可 以 是 数值 型 的 也 可 以 是 范畴 型 的 ， 或 者 是 它们 的 组 
合 。 因 此 在 HMM 结构 中 观测 值 仅仅 依赖 于 时 间 点 t 处 的 状态 ， 而 且 状态 序列 是 一 阶 马 尔 
可 夫 链 。 状 态 序列 是 未 观察 到 的 或 隐藏 的 ， 而 y 是 直接 观测 到 的 ， 因 此 关于 哪个 特定 的 状态 
序列 产生 了 数据 具有 不 确定 性 〈 对 于 给 定 的 模型 结构 和 观察 到 的 > 集合 )。 





观测 到 的 数据 
Yı Y: Ys Y4 Yr Yr 
Xi X: X3 X4 Xr- Xr 
隐 含 状态 





图 6-11 对 应 于 一 阶 隐 马 尔 可 夫 假 定 的 图 形 模 型 结构 


可 以 把 HMM 结构 想像 为 一 种 混合 模型 (对 于 变量 了 来 说 有 m 个 不 同 的 密度 函数 )， 我 
们 已 经 向 这 个 混合 模型 中 的 “ 相 邻 ”分 量 x, Al xu 间 加 入 了 马尔 可 夫 依 赖 性 。 更 准确 地 说 ， 
对 于 一 阶 HMM 可 以 把 观测 到 的 序列 和 任意 特定 的 隐 含 状态 序列 的 联合 概率 写成 ， 


T 
POr YTX XT ) = PX PC, | XY I] PCy, lX) PO, | x11) (6.15) 
t=2 
等 式 右 侧 的 因 式 分 解 明 显 来 自 于 图 6-11 的 图 形 模型 结构 。 如 果 把 上 式 看 作 分 布 参数 的 函 
数 ， 那 么 这 就 是 变量 (Yp es Yp Xo vty Xp) 的 似 然 。 观 测 到 的 各 个 y 的 似 然 可 用 于 把 这 
种 模型 拟 合 到 数据 〈 即 获取 参数 pO I 如 和 pO, | x). BAB pov > yd 《观测 到 数据 的 似 
R) 就 必须 把 左边 的 项 对 mr 个 可 能 状态 序列 进行 累加 ， 乍 一 看 来 ， 这 似乎 牵涉 到 要 对 指数 级 
数量 的 项 进行 累加 。 幸 运 的 是 有 一 种 方便 的 递归 方法 可 以 在 O0x27) 时 间 内 完成 这 一 计算 。 
很 明显 ， 还 可 以 对 一 阶 HMM 结构 进行 很 多 种 不 同方 向 的 拓展 。k 阶 马尔 可 夫 模 型 就 是 
使 x 依赖 于 前 面 的 个 状态 。 也 可 以 推广 y 的 依赖 性 ， 例 如 使 y 既 线 性 依赖 于 前 面 的 个 y 
(就 像 自 回归 模型 那样 )， 又 直接 依赖 于 x,。 这 便 把 通常 的 自 回 归 模 型 结构 自然 地 推广 到 了 
混合 自 回归 模型 (mixture of autoregressive model)， 我 们 可 以 将 其 想像 为 是 在 m 个 不 同 的 自 
回归 模型 之 间 以 马尔 可 夫 链 的 方式 进行 切换 。Kalman 滤波 器 与 HMM 有 着 紧密 的 关系 ， 只 
不 过 隐 含 状态 是 取 实 数值 的 (比如 一 台 机 器 的 未 知 速 度 或 动力 )， 但 该 模型 的 独立 结构 与 我 
们 已 经 讨论 的 HMM 的 情况 本 质 是 相同 的 。 
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对 隐 马 尔 可 夫 模 型 的 产生 式 描述 ， 计 算 机 方面 的 学 者 会 很 容易 地 联想 起 有 限 状 态 机 
(FSM)。 事 实 上 正如 我 们 这 里 所 描述 的 ， 一 阶 HMM 直接 等 价 于 带 有 m 个 状态 的 随机 有 限 
状态 机 ， 也 就 是 说 ， 下 一 个 状态 是 由 p(x | 如 0) 控制 的 。 这 提示 我 们 可 以 从 不 同 语法 的 角度 来 
推广 这 种 模型 结构 。 有 限 状 态 机 是 正则 语法 (regular grammar) 的 一 种 简单 形式 。 再 上 一 层 
(按照 所 请 的 Chomsky 语法 层次 ) BEF RAK (context-free grammar)， 可 以 将 其 看 
作 是 用 堆栈 丰富 了 有 限 状 态 机 器 ， 允 许 模 型 结构 “记忆 ”长 范围 的 依赖 关系 ， 比 如 名 尾 的 封 
闭 括 弧 等 。 随 着 语法 层次 的 上 升 ， 模 型 结构 的 表达 能 力 越 来 越 强 ， 但 对 数据 的 拟 合 也 越 来 越 
困难 了 。 因 此 尽管 正则 语法 (或 者 说 HMM) 在 结构 上 比较 简单 ， 但 是 由 于 那些 复杂 的 结构 
拟 合 到 真实 数据 非常 困难 ， 所 以 绝 大 部 分 使 用 马尔 可 夫 模 型 拟 合 序列 数据 的 应 用 还 是 以 正则 
语法 为 基础 的 (相对 其 他 更 复杂 的 语法 结构 而 言 )。 

最 后 ， 尽 管 这 里 只 描述 了 简单 的 数据 结构 ，Y 来 自 于 有 序 序列 ， 但 是 很 显然 我 们 可 以 将 
马尔 可 夫 模 型 结构 推广 到 对 更 一 般 的 数据 依赖 关系 〈 比 如 二 维 栅 格 中 的 数据 ) 进行 建 模 。 例 
如 马尔 可 夫 随 机 场 (Markov random field) 实质 就 是 马尔 可 夫 链 在 多 维 情况 下 的 推广 〈 比 如 
在 二 维 空间 中 ， 我 们 可 以 用 栅 格 结构 来 表示 图 形 模型 ， 而 不 是 链 结构 )。 

事实 证 明 这 种 模型 比 链 模 型 更 加 难以 分 析 和 使 用 。 例 如 对 于 像 汇 总 似 然 中 的 隐 含 变量 ( 公 
sh 6.15) 这 样 的 问题 ， 通 常 没 有 可 驾驭 的 求解 方法 ， 必 须 使 用 近似 。 因 此 ， 处 理 空间 数据 比 
处 理 序列 数据 更 困难 ， 尽 管 概念 上 平稳 思想 、 马 尔 可 夫 模 型 、 线 性 模型 等 等 都 适用 。 一 种 处 
理 栅 格 化 数据 的 常见 方法 是 把 二 维 栅 格 数据 (如 n x n ERD “调整 ”为 一 个 长 度 为 到 
的 单一 向 量 ， 然 后 对 这 些 向 量 进行 主 分 量 分 析 ， 从 而 把 测 得 的 栅 格 数据 投影 到 一 个 小 的 PCA 
向 量 集 上 去 ， 再 在 这 个 维度 降低 了 的 空间 上 用 标准 多 元 模型 对 数据 进行 建 模 。 这 种 方法 忽略 
了 原始 栅 格 数据 中 的 大 多 数 空间 信息 ， 尽 管 如 此 ， 该 方法 在 很 多 情况 下 还 是 非常 实用 的 。 类 
似 的 ， 对 于 多 元 时 间 系 列 或 序列 ， 在 同一 时 间 段 里 有 p 个 不 同 的 时 间 系 列 或 序列 测量 值 〈 例 
如 在 同一 病人 身上 的 不 同 生物 医学 监控 器 )， 可 以 采用 PCA 把 p 个 原始 时 间 系 列 减少 到 数量 
大 大 减 小 的 若干 “分 量 ” 系 列 ， 然 后 再 进行 进一步 的 分 析 。 





6.7 ”模式 结构 


本 书 通 篇 把 模型 作为 对 整个 〈 或 绝 大 部 分 ) 数据 集 的 全 局 性 描述 ， 而 把 模式 作为 是 对 数 
据 集 的 某 些 局 部 特征 的 描述 。 可 以 把 一 个 模式 看 作 是 一 个 谓词 ， 对 于 数据 集中 出 现 了 该 模式 
的 那些 对 象 或 对 象 局 部 它 返 回 真 ， 否 则 返回 假 。 要 定义 一 类 模式 ， 我 们 需要 做 两 件 事情 : 一 
是 确定 模式 的 语法 《说 明 如 何 来 定义 模式 的 语言 )， 二 是 模式 的 语意 〈 如 何 解释 模式 所 适用 
的 数据 )。 在 这 一 节 中 ， 我 们 讨论 用 于 两 种 不 同类 型 离散 值 数据 的 模式 ， 标 准 征 阵 形式 的 数 
据 和 被 描述 为 字符 串 的 数据 。 


6.7.1 Bee PAT 


建立 模式 的 一 种 一 般 方法 是 从 元 模式 开始 ， 然 后 再 用 罗 辑 连接 符 把 它们 组 合 起 来 。( 改 
一 种 方法 是 为 特定 的 应 用 建立 某 种 类 型 的 特殊 模式 )。 再 回 到 数据 矩阵 表示 ， 并 假定 有 p 个 
FE Xp “o Xe BX = (ty “o PARERE H p 维 测量 向 量 。 我 们 将 数据 集合 中 的 第 i 
个 数据 个 体 表示 为 xD，1 三 i <S n。 整 个 数据 集 为 DD= {x(1)，…，x(n)}。 自 然 地 ，x( 站 ) 是 
第 i 个 数据 个 体 的 第 个 测量 值 。 
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一 般 地 说 ， 变 量 X，…，X, 的 一 个 模式 标识 了 这 些 变量 所 有 可 能 观测 值 的 一 个 子 集 。 
可 以 从 元 模式 〈primitive pattern) 开始 逐步 建立 一 种 语言 来 表示 一 般 的 模式 。 元 模式 就 是 变 
量 的 取 值 情况 。 例 如 如 果 c HX, WA, MAX, = c 就 是 一 个 元 模式 。 如 果 XX 的 值 是 有 序 的 

(比如 是 实 轴 上 的 数字 )， 那 么 还 可 以 包括 像 X S c 这 样 的 不 等 式 作 为 元 条 件 。 需 要 的 话 
元 模式 也 可 以 包括 多 元 条 件 , 比如 对 于 实数 值 数 据 的 XX > 2, 以 及 对 于 离散 值 数据 的 X= X; 
有 了 元 模式 ， 就 可 以 使 用 像 AND (A). OR (V) 这 样 的 逻辑 连接 符 来 建立 更 复杂 的 模 
式 。 例 如 可 以 建立 一 个 模式 : 
(年 龄 < 40) A GRAS 10) 
来 描述 工资 单数 据 库 内 输入 记录 的 一 个 子 集 。 值 得 一 提 的 是 ， 分 类 树 的 每 一 个 分 支 (第 5 章 
讨论 的 ) 都 是 一 个 这 种 形式 的 合 取 模式 。 另 外 一 个 例子 如 
1 (回形针 =1) 人 (啤酒 =1 V 软饮料 = 1) 
描述 了 购物 篮 数据 库 内 各 记录 行 的 一 个 子 集 。 

FRX (pattem class) 是 一 组 合法 模式 的 集合 。 一 旦 确定 了 一 组 元 模式 和 组 合 这 些 元 模 
式 的 合法 方式 ， 便 定义 了 一 个 模式 类 C。 例 如 ， 如 果 变 量 X，…，%, 的 取 值 范围 都 是 {0, 1}, 
那么 我 们 可 以 定义 一 个 模式 类 C， 它 是 由 以 下 形式 的 所 有 合 取 式 组 成 的 : 

(jel A CD A 人 (Xel) 

在 数据 集 D 中 频繁 出 现 的 模式 被 称 为 (变量 的 ) 频繁 集 (frequent set)。 央 为 每 一 个 这 
样 的 模式 都 是 由 变量 的 某 个 子 集 所 唯一 确定 的 ， 所 以 可 以 把 这 种 模式 简写 为 {Xi，Xp，…*， 
Xx}。 从 数据 集中 寻找 像 频 繁 集 这 样 的 合 取 模 式 是 比较 简单 的 ， 在 第 13 章 中 我 们 将 对 此 做 详 
细 的 讨论 。 

给 定 一 个 模式 类 和 一 个 数据 集 D， 那 么 模式 的 一 个 重要 特性 是 它 在 数据 集中 的 频率 。 可 
以 把 模式 p 的 频率 fr(p) 定 义 为 数据 集中 使 这 个 模式 为 真 的 观测 值 的 相对 数目 。 有 些 情况 下 ， 
数据 挖 握 仅 对 出 现 相 当 频 繁 的 模式 感 兴趣 。 然 而 频率 接近 零 的 模式 也 可 能 包含 丰富 的 信息 。 

(的 确 ， 有 时 就 是 那些 罕见 而 且 不 寻常 的 模式 具有 特别 的 意义 。) 当然 模式 频率 不 是 模式 的 
唯一 重要 特性 。 诸 如 语意 的 简洁 性 、 可 理解 性 和 模式 的 新 颖 性 或 新 奇 性 显然 也 都 是 我 们 所 感 
兴趣 的 。 举 例 来 说 ， 对 于 数据 集中 的 任何 一 套 特定 的 观测 值 (x;，…，)， 我 们 都 可 以 写 出 
一 个 与 观察 值 完全 匹配 的 合 取 模式 (Xi = xt) 八 … 八 (X,= 为)。 所 有 这 样 的 合 取 模 式 的 析 取 
形成 的 模式 在 数据 集中 的 频率 是 1。 然 而 这 样 的 模式 以 一 种 腑 肿 的 方式 重 写 整 个 数据 集 ， 根 
本 没有 意义 。 

对 于 给 定 的 模式 类 ， 模 式 发 现 的 任务 就 是 从 该 类 中 寻找 相对 数据 集 来 说 满足 一 定 条 件 的 
所 有 模式 。 例 如 ， 我 们 可 能 对 寻找 满足 以 下 条 件 的 所 有 频繁 集 模式 感 兴趣 : 它们 的 频率 至 少 
为 0.1， 而 且 变 量 Xx 出 现在 其 中 。 广 义 上 讲 ， 模 式 发 现任 务 的 定义 还 包括 模式 的 信息 性 、 新 
颖 性 和 可 理解 性 等 条 件 。 定 义 模式 类 和 模式 发 现任 务 的 难点 是 如 何平 衡 模 式 的 表达 能 力 、 综 
合 能 力 与 求解 这 个 任务 的 计算 复杂 度 之 间 的 矛盾 。 

如 果 给 定 了 模式 类 C, 那么 可 以 很 容易 地 定义 规则 , 一 条 规则 就 是 一 个 这 样 的 表达 式 p 志 
9， 这 里 p 和 9 是 模式 类 C 中 的 模式 。 一 个 逻辑 规则 的 语意 就 是 : 如 果 表 达 式 p 对 一 个 对 象 
来 说 为 真 ， 那 么 o 也 为 真 。 我 们 可 以 放宽 这 个 定义 ， 以 支持 从 p 到 9 映射 的 不 确定 性 ， 也 就 
是 如 果 p 为 真 ， 那 么 g 以 一 定 概率 为 真 。 这 种 规则 的 精度 (accuracy) REXA ple |p), th 
就 是 当 p 对 于 一 个 对 象 为 真 时 9 也 为 真 的 条 件 概率 。 正如 第 4 章 讨 论 的 ， 用 近似 频率 计数 我 
们 可 以 很 容易 的 估计 出 这 个 概率 ， 即 


[= 
© 
n 





Sr(p A) 
fr(p) 

规则 p => of R44 (support) fro > 9) 被 定义 为 fro) (适用 规则 的 对 象 的 比例 ) Be frp 
人 《对 其 来 说 规则 左右 两 边 都 为 真 的 对 象 的 比例 )。 

例如 ， 如 果 模 式 是 频率 集 ， 那 么 规则 的 形式 为 : 

{4，…，4 => {B> ces By} 
这 里 每 一 个 4 和 B, 都 是 二 进 制 变量 。 这 个 规则 的 完整 形式 为 : 
(AI=1) A ce A (A1=1) > (B=1) A A (B,=1) 

这 样 的 规则 被 称 为 关联 规则 ， 它 是 数据 挖掘 中 广泛 使 用 的 一 种 模式 结构 〈 在 第 13 章 中 
我 们 将 详细 的 讨论 寻找 这 种 模式 的 算法 原理 )。 

夭 此 ， 我 们 已 经 介绍 了 定义 原始 数据 子 集 的 模式 。 也 就 是 ， 每 个 模式 都 是 由 用 仅 指向 单 
一 观测 的 变量 的 规则 所 定义 的 。 然 而 在 某 些 情况 下 我 们 需要 使 用 指向 多 个 观测 的 变量 的 模 
式 。 例 如 我 们 可 能 希望 标识 出 地 理 数据 库 中 可 以 组 成 等 边 三 角形 的 所 有 顶点 。 举 一 个 更 正式 
的 例子 ， 考 虑 一 个 具有 离散 变量 A, =o A, 的 数据 集 。 函 数 依赖 性 是 如 下 形式 的 一 个 表达 
式 : 


P(P|p)= 


A.A, A, = Ai, 


其 中 1 <i, <p, isb es 及 1。 注 意 这 与 关联 规则 的 定义 在 语法 上 很 相像 。 然 而 ， 由 这 
个 表达 式 所 定义 的 函数 依赖 性 为 真 的 条 件 是 : 对 于 数据 集中 所 有 的 观测 数据 对 X= (a1，…， 
apf y = (bp **, bp) 如 果 对 于 所 有 的 变量 A ， j=1, =, k xX 和 yy 是 一 致 的 ， 那 么 对 于 
Ain 它们 也 是 一 致 的 。 也 就 是 说 ， 如 果 对 于 所 有 的 i= 1，…，Kk，ai =b; BRA a, =b, 
函数 依赖 性 起 源 于 数据 库 设 计 ， 而 且 对 查询 优化 也 很 有 意义 。 知 道 数据 集中 的 函数 依赖 性 有 
助 于 理解 数据 结构 。 

这 里 的 模式 或 写 在 模式 中 的 条 件 仅 限 于 出 现在 数据 库 单个 记录 中 的 值 。 有 时 我 们 也 可 能 
希望 描述 引用 其 他 观测 值 的 模式 ， 比 如 对 应 于 “在 其 所 在 部 门 中 收入 最 低 的 雇员 ”的 模式 。 
也 可 以 用 逻辑 形式 来 描述 这 样 的 条 件 。 例 如 : 


{x,| ERS 40 A 收入 和 10} 


6.7.2 ”字符 串 模 式 


在 上 一 节 中 我 们 讨论 了 适用 于 传统 的 矩阵 形式 数据 的 模式 。 其 他 类 型 的 数据 需要 其 他 类 
型 的 模式 。 为 了 说 明 这 一 点 ， 在 本 节 中 我 们 讨论 一 下 字符 串 模式 。 确 切 地 说 ， 字 母 表 S 上 的 
一 个 字符 串 是 5 元 素 ( 也 就 是 字母 ) 的 一 个 序列 ay, a 字符 表 5 可 以 是 二 值 字母 表 {0, 1}. 
ASCH 代码 集 、DNA 字母 表 {A, C, G, T}、 或 者 由 ASCH 字母 组 成 的 所 有 单词 的 集合 。 由 5 
中 的 字母 组 成 的 所 有 字符 串 的 集合 被 表示 为 S*。 

字符 串 数据 和 标准 算 阵 形式 的 数据 的 区 别 在 于 对 字符 串 而 言 不 存在 固定 的 变量 集 。 如 
果 要 使 用 概率 概念 描述 字符 串 数据 的 话 ， 可 以 把 字符 串 中 的 每 一 个 字符 看 成 一 个 随机 变量 。 

数据 可 以 是 一 个 或 几 个 字符 串 ， 大 多 数 情 况 下 ， 我 们 的 兴趣 在 于 寻找 特定 模式 在 字符 串 
中 出 现 的 次 数 。( 例 如 求 出 某 个 DNA 序列 在 一 个 大 序列 集中 的 出 现 次 数 )。 最 简单 的 字符 串 
模式 是 子 串 〈substring)， 比 如 如 果 对 于 所 有 j = 1，…, 上 都 有 wj 六 ,= 已， 那么 便 说 模式 局 … 
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b, 出 现在 字符 串 aj…a 的 i 位置 上 。 例 如 对 DNA 序列 ， 我 们 感 兴趣 的 可 能 是 找 出 子 串 模式 
ATTATTAA 的 出 现 次 数 ， 对 于 ASCH 字符 串 ， 感 兴趣 的 可 能 是 模式 data mining 是 否 出 现在 
给 定 字符 串 中 。 

然而 我 们 可 能 对 字符 串 中 的 模式 类 更 感 兴 趣 。 一 个 正则 表达 式 (regular expression) E 
定义 了 一 个 字符 串 集合 LE)。 进 一 步 来 说 ， 家 达 式 EE 可 以 是 下 列 情况 之 一 : 

1. 一 个 字符 串 5, MBA Ls) = {s}; 

2. E, #0 E, 的 串联 E18E,， 这 种 情况 下 集合 L EE) ALED AL CE.) 中 任何 两 个 字 
符 串 的 串联 组 成 ; 

3，E 和 E, 的 选择 ENE; 那么 L (ElE,) =L (El) UL CE); 

4. E KIZI E*; 那么 L CE*) BL CE) 中 的 0 个 或 多 个 字符 串 串 联 组 成 的 所 有 字符 串 。 

如 此 说 来 ，10(00111)*01 就 是 一 个 正则 表达 式 ， 它 描述 了 以 10 开始 ，01 结束 ， 中 间 包 
含 一 系列 00 和 11 序 偶 的 所 有 字符 串 。 

正则 表达 式 是 特别 适 于 描述 有 趣 字符 串 类 的 一 种 模式 形式 。 虽 然 有 些 简 单 类 型 的 字符 串 
无 法 用 正则 表达 式 描 述 〈 如 由 所 有 对 称 括 弧 序 列 组 成 的 字符 串 集 合 )， 但 是 可 以 用 它 来 表达 
许多 非常 复杂 的 字符 串 规 律 。 

虽然 正则 表达 式 可 以 很 好 的 地 定义 字符 串 模式 ， 但 对 于 表达 事件 发 生 次 数 的 变化 来 说 ， 
它 的 表达 能 力 还 不 够 。 能 够 做 到 这 点 的 一 种 简单 模式 类 是 片段 (episode)。 从 顶层 来 看 ， 一 
个 片段 就 是 一 起 发 生 事件 的 一 个 部 分 有 序 集 (partially ordered collection)。 事 件 可 以 是 不 同 
类 型 的 ， 而 且 可 以 指向 不 同 的 变量 。 例 如 在 生物 学 统计 数据 中 ,“ 先 是 头痛 ， 然 后 在 一 定时 
间 段 内 伴随 一 种 错 迷 感觉 ” 便 是 一 个 片段 。 片 段 对 干扰 事件 〈 比 如 通讯 过 程 中 的 警 鸣 、 用 户 
接口 行为 的 记录 等 等 ) 不 敏感 ， 这 是 很 有 用 的 。 也 可 以 把 片段 和 前 面 讨 论 的 各 类 规则 一 起 使 


讨论 回归 建 模 的 书籍 有 很 多 。Draper and Smith (1981) 以 及 Cook and Weisberg (1999) 
都 很 精彩 。McCullagh and Nelder (1989) 是 关于 推广 的 线性 模型 的 权威 著作 ， 而 Hastie and 
Tibshirani (1990) 则 是 关于 推广 的 可 加 模型 的 权威 著作 。Fan and Gijbels (1996) 广泛 讨论 
了 局 部 多 项 式 方法 ， 而 Wand and Jones (1995) 更 偏重 于 理论 的 探讨 的 核 估计 方法 〈 这 两 本 
书 都 是 关于 回归 和 密度 估计 的 )。Hand (1982) 详细 的 讨论 了 核 估计 方法 在 有 指 量 分 类 问题 
中 的 应 用 。 

McLachlan (1992). Ripley (1996). Bishop (1996). Mitchell (1996)、Hand (1997) 和 
Cherkassky and Muller (1998) 都 比较 深入 的 讨论 了 分 类 建 模 。McLachlan 和 Ripley 的 教材 
主要 是 针对 统计 方面 的 读者 。Ripley 的 著作 的 一 个 显著 特点 是 使 用 了 大 量 不 同类 型 的 数据 集 
来 阐述 基本 概念 。Bishop、Cherkassky 和 Muller 的 著作 更 侧重 于 神经 网 络 和 有 关 的 进展 ， 而 
日 每 一 本 书 中 都 包含 了 很 多 不 同 于 主流 统计 文献 的 思想 。Duda and Hart (1973) 仍然 是 关于 
分 类 建 模 的 经 典 之 作 ， 非 常 清晰 全 面 的 讨论 了 分 类 建 模 的 核心 思想 。 在 《统计 和 计算 》 

(Statistics and Computing) 杂志 第 8 卷 第 一 期 里 有 对 Bishop (1996). Ripley (1996)、Looney 
(1997)、Nakhaeizadeh and Taylor (1997) 的 评论 。 
关于 混合 模型 的 综合 性 教材 包括 Titterington, Makov and Smith (1985), McLachlan and 


N 
© 
oo 


209 


134 BOF 





Basford (1988) 以 及 McLachlan and Peel (2000)。 关 于 这 一 领域 的 一 般 性 讨论 还 有 Redner and 
Walker (1984) 以 及 Everitt and Hand (1981). Silverman (1992) 是 一 本 包含 了 有 关 密 度 估 
计 的 大 量 内 部 细节 的 教材 ，Scott (1992) 也 是 关于 这 一 主题 的 ， 书 中 对 “average-shifted 
histogram” 模 型 的 讨论 特别 值得 关注 ， 该 模型 综合 了 直方 图 和 核 估 计 的 特征 ， 这 可 能 对 面向 
海量 数据 集 的 直方 图 模型 很 有 意义 。 
”Jolliffe (1986〉 是 专门 讨论 主 分 量 方 法 的 教材 。Huber (1985) 详细 探讨 了 投影 追踪 法 ， 
Hyvarinen (1999) 全 面 分 析 了 独立 分 量 分 析 和 有 关 的 维度 归 约 技术 。 
Elliott et al. (1995) 和 MacDonald and Zucchini (1997) 讨论 了 隐 马 尔 可 夫 模 型 。Chatfield 
(1996) 介绍 了 大 量 有 关 自 回归 和 时 间 序 列 模型 的 文献 , 非常 值得 一 读 。Harvey (1989), Box, 
Jenkins and Reinsel (1994) 以 及 Hamilton (1994) 从 数学 角度 深入 地 讨论 了 时 间 序 列 建 模 并 
展望 了 它 的 应 用 。Kim and Nelson (1999) 深入 的 探讨 了 如 何 切换 各 个 模型 。Cressie (1991) 
是 关于 空间 数据 分 析 的 著名 教材 ，Dryden and Mardia (1998) 广泛 地 讨论 了 二 维 形体 的 建 模 
问题 。Grenander (1996) 讨论 了 用 于 序列 数据 和 空间 数据 的 产生 式 模型 ， 该 书 把 统计 学 和 
计算 机 科学 中 的 很 多 思想 联系 起 来 ， 很 吸引 人 。 
Ramsey and Silverman (1996) 讨论 了 对 时 间 和 或) 空间 数据 建 模 的 通用 方法 ， 例 如 
对 来 自 不 同和 气象 站 的 时 间 序 列 数据 建 模 。Crowder and Hand (1990), Hand and Crowder 
(1996), Diggle, Liang and Zeger (1994) WAR Lindsey (1999) 讨论 了 对 重复 测量 建 模 的 方 
法 。 
采用 逻辑 公式 描述 模式 的 思想 在 数据 库 系 统 中 应 用 很 广 。 比 如 Ramakrishnan and Gehrke 
(1999) 和 Ullman and Widom(1997) 都 是 这 方面 的 入 门 级 教材 .Agrawal Imielinski and Swami 
(1993) 介绍 了 频率 集 。 许 多 有 关 计 算 理论 的 书籍 都 介绍 了 正则 表达 式 ， 比 如 Lewis and 
Papadimitriou (1998). Gusfield (1997) 也 讨论 了 文本 模式 概念 。Mannila, Toivonen and Verkamo 
(1997) 探讨 了 episode 的 概念 。 
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第 7 章 数据 挖掘 算法 的 评分 函数 


7.1 简介 


在 第 6 章 ， 我 们 重点 讨论 了 可 用 于 把 模型 和 模式 拟 合 到 数据 的 不 同 表示 方法 和 结构 。 
现在 我 们 可 以 讨论 如 何 将 这 些 结构 拟 合 到 数据 了 。 回 想 模 型 或 结构 是 一 种 函数 形式 ， 它 的 
参数 是 “浮动 的 ”。 例 如 : 了 = aX + b 就 是 一 种 这 样 的 模型 结构 ， 其 中 a Mb 是 参数 。 如 果 
确定 了 模型 或 模式 结构 ， 那 么 我 们 必须 根据 数据 评价 不 同 的 参数 值 设 定 ， 以 便 我 们 能 够 先 
择 出 一 个 好 的 参数 集 (或 者 甚至 是 “最 好 ”的 )。 在 第 1 章 的 简单 线性 回归 例子 中 ， 我 们 
介绍 了 如 何 使 用 最 小 平方 原理 从 不 同 的 参数 值 中 选取 最 优 的 参数 。 这 包括 寻找 参数 a 和 6 
的 值 使 函数 y 的 预测 值 《通过 模型 计算 而 得 ) 与 y 的 实际 观察 值 数据) 之 间 的 差异 平方 
和 最 小 化 。 在 这 个 例子 中 ， 评 分 函数 就 是 模型 的 预测 值 与 实际 观测 值 之 间 的 差异 平方 和 。 
本 章 的 目标 是 介绍 更 多 可 用 于 数据 挖掘 的 评分 函数 ， 以 扩展 读者 这 方面 的 视野 。 我 们 将 看 
到 历史 悠久 的 误差 平方 评分 函数 只 是 众多 评分 函数 中 的 一 种 ， 而 且 实际 上 它 可 以 被 看 作 是 
更 一 般 理论 的 一 个 特例 。 

为 什么 我 们 要 重视 评分 函数 呢 ? 弄 清 这 个 问题 是 非常 重要 的 。 从 根本 上 说 使 用 评分 函 
数 的 目的 是 用 函数 的 形式 来 评价 一 个 模型 对 于 数据 挖掘 者 来 说 的 有 用 程度 。 然 而 不 幸 的 
是 ， 在 实践 中 对 于 构建 模型 的 人 来 说 评价 和 度量 模型 在 实际 应 用 方面 的 “有 用 ”程度 是 非 
常 困难 的 。 例 如 ， 在 预测 股票 市 场 的 回报 率 时 ， 人 们 可 能 使 用 预测 数据 和 实际 数据 的 误差 
平方 作为 评分 函数 来 训练 它 的 模型 。 然 而 ， 如 果 把 这 个 模型 应 用 到 实际 的 经 济 环境 中 ， 屠 
么 许多 诸如 交易 成 本 、 风 险 、 多 样 性 等 其 他 因素 便 开始 作用 并 影响 这 个 模型 的 实际 效果 。 
这 解释 了 为 什么 我 们 经 常 满足 于 更 简单 的 “通用 ”评分 函数 〈 例 如 误差 平方 )， 它 们 具有 
很 多 期 望 的 被 普遍 接受 的 特征 ， 同 时 又 易于 使 用 。 当 然 ， 我 们 不 应 该 走 极端 ， 所 使 用 的 评 
分 函数 应 该 尽 可 能 反映 数据 控 拥 任务 的 整体 目标 。 应 该 努力 避免 为 了 方便 (比如 是 因为 使 
用 软件 包 的 缺 省 设置 、 而 使 用 与 数据 控 据 任务 完全 不 相关 的 评分 函数 ， 不 幸 的 是 这 种 情况 
在 实践 中 出 现 的 非常 多 。 

不 同 的 评分 函数 具有 不 同 的 属性 ， 并 且 适 用 于 不 同 的 情况 。 本 章 的 一 个 目的 就 是 使 读者 
明白 这 些 不 同 并 且 理 解 使 用 某 个 评分 函数 而 不 使 用 另 一 个 的 真实 内 涵 8。 正 像 模型 和 模式 结构 
中 化 含 着 一 些 基本 原理 一 样 ， 不 同 的 评分 函数 也 有 一 些 基本 的 原理 。 这 些 正 是 本 章 的 重点 。 

在 一 开始 从 三 个 角度 来 区 分 评分 函数 是 很 有 用 的 。 一 是 用 于 模型 的 评分 函数 同 用 于 模式 
的 评分 函数 之 间 的 差别 ， 二 是 用 于 预测 性 结构 的 评分 函数 同 用 于 描述 性 结构 的 评分 函数 之 间 
的 差别 ， 三 是 用 于 具有 固定 复杂 度 的 模型 的 评分 函数 同 用 于 具有 不 同 复杂 度 的 模型 的 评分 函 
数 之 间 的 差别 。 下 面 的 章节 将 说 明 这 些 差别 。 

有 必要 对 下 文 使 用 的 术语 作 个 小 小 的 说 明 。 在 某 些 地 方 ， 我 们 提 到 的 是 显然 希望 被 最 小 
化 的 评分 函数 〈 比 如 误差 )， 然 而 在 另外 一 些 地 方 我 们 提 到 的 是 显然 希望 被 最 大 化 的 评分 函 
数 〈 例 如 对 数 似 然 )。 这 两 种 情况 的 根本 概念 是 一 致 的 ， 因 为 一 个 “基于 误差 ”的 评分 函数 
的 负数 形式 或 相反 的 ) 就 可 以 被 最 大 化 了 ， 反 之 亦 然 。 
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7.2 ”对 模式 进行 评价 


由 于 从 数据 中 寻找 局 部 模式 的 完整 概念 是 近年 来 才 形 成 的 ， 所 以 相 比 于 用 于 评价 模 
型 的 略 显 过 剩 的 技术 来 说 可 用 于 评价 模式 的 技术 要 少 得 多 。 实 际 上 ， 目 前 确实 还 没有 关 
于 如 何 评价 模式 的 一 致 结论 。 一 种 模式 在 实际 中 的 有 用 程度 很 大 程度 上 还 是 取决 于 观察 
者 的 看 法 。 某 些 人 认为 是 噪声 的 孤立 点 可 能 被 其 他 人 认为 很 有 价值 。 从 根本 上 说 ， 可 以 
根据 模式 对 数据 分 析 者 的 有 趣 度 和 未 知 度 来 评估 模式 。 但 是 仅 当 我 们 具有 了 关于 用 户 目 
前 实际 已 经 知道 知识 的 精确 模型 后 ， 我 们 才 有 可 能 量化 这 种 有 趣 度 和 未 知 度 。 我 们 都 有 
过 类 似 这 样 的 经 历 ， 我 们 第 一 次 得 知 某 些 令 人 惊讶 的 事情 时 的 感触 会 比 我 们 第 五 次 或 第 
十 次 重复 听 到 同样 的 信息 时 更 深 。 所 以 ， 一 个 模式 对 某 个 人 的 有 趣 程度 必然 依赖 于 他 的 
以 前 知识 。 

然而 在 实践 中 ， 我 们 不 能 指望 〈 除 非 在 简单 情况 下 ) 能 够 对 一 个 人 的 以 前 知识 建 模 。 面 
对 一 个 数据 集合 ， 科 学 家 或 市 场 专家 也 难以 精确 地 表达 出 关于 这 个 问题 他 们 已 经 知道 了 多 少 
知识 ， 即 使 是 主观 的 贝 叶 斯 理论 在 选择 用 于 复杂 的 多 参数 模型 的 先 验 时 也 会 遇 到 问题 一 一 通 
过 选择 标准 形式 的 先 验 来 回避 这 个 问题 , 也 就 是 只 对 以 前 知识 进行 简单 化 的 表示 。 我 们 发 现 : 
一 旦 某 些 模式 开始 从 数据 中 浮现 出 来 时 〈 利 用 可 视 化 、 描 述 统计 学 或 者 通过 数据 挖掘 算法 )， 
数据 库 的 拥有 者 经 常会 说 “ 噢 ! 是 的 ， 不 过 我 们 已 经 知道 了 ”， 一 旦 他 们 已 经 看 到 了 数据 ， 那 
么 他 们 声称 的 一 直 所 期 待 的 模式 就 改变 了 。 

尽管 说 了 这 么 多 ， 但 是 目前 的 事实 依然 是 : 在 数据 挖掘 中 使 用 的 大 多 数 评价 模式 实质 上 
是 都 假定 它们 是 相对 于 一 个 完全 无 信息 的 先 验 模型 来 衡量 信息 性 〈informativeness) 的 ; 也 
就 是 ， 实 际 上 假定 了 数据 分 析 者 对 于 当前 的 问题 根本 没有 任何 以 前 知识 ， 除 了 一 些 简单 的 边 
缘 和 描述 性 统计 量 。 这 样 做 的 目的 是 排除 非常 显而易见 的 模式 〈 而 把 注意 力 集中 在 那些 不 同 
于 已 知 简单 模式 的 模式 上 )， 然 后 让 用 户 对 算法 发 现 的 其 余 模式 作 “后 期 修剪 ”以 保留 真正 
感 兴趣 的 模式 。 当 然 ， 这 样 做 的 危险 是 : 对 于 某 些 数据 集合 和 某 些 模式 搜索 形式 ， 数 据 挖掘 
算法 发 现 的 几乎 所 有 模式 对 数据 分 析 者 都 是 根本 无 趣 的 。 

为 了 举例 说 明 以 上 观点 ， 我 们 选择 一 个 简单 的 ‘但 是 被 广泛 应 用 的 模式 结构 一 一 概率 
规则 参见 在 第 5 章 中 关于 关联 规则 的 讨论 )， 我 们 将 在 后 面 的 第 13 章 中 对 此 进行 更 详细 的 
讨论 。 概 率 规 则 具有 以 下 的 形式 ; 

IF a THEN b 的 概率 是 p 


其 中 a 和 4b 都 是 定义 在 我 们 感 兴趣 变量 的 子 集 上 的 布尔 命题 (事件 ), MA p=p (bla). 
对 于 一 个 没有 任何 信息 的 观察 者 来 说 ， 我 们 如 何 来 衡量 这 一 规则 的 有 趣 度 和 信息 度 呢 ?一 
个 简单 的 方法 就 是 假设 这 个 观察 者 已 经 知道 了 事件 b 概率 的 边缘 《或 者 说 是 绝对 ) 分 
布 一 一 p (b)。 

例如 ， 假 设 我 们 正在 研究 由 数据 挖掘 者 组 成 的 总 体 。 用 b 来 表示 从 这 些 人 中 随机 选择 一 
个 人 是 数据 挖掘 研究 者 的 事件 , 而 用 a 来 表示 这 个 人 已 经 读 过 本 书 的 事件 。 假设 我 们 发 现 pb) 
= 0.25 同时 p(bla) = 0.75; 就 是 说 在 这 样 一 个 数据 挖 扬 者 的 总 体 中 有 25% 的 人 是 数据 挖掘 的 
研究 者 ， 而 且 读 过 本 书 的 人 中 有 75% 是 数据 挖掘 研究 者 。 这 是 非常 有 趣 的 ， 因 为 这 告诉 我 
们 ， 在 读 过 本 书 的 人 当中 正在 进行 数据 挖掘 研究 的 人 占有 的 比例 比 我 们 正在 讨论 的 数据 挖掘 
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者 总 体 中 在 进行 数据 挖掘 研究 的 人 的 比例 要 高 。( 因 此 ， 也 就 暗示 了 : 在 读 过 本 书 的 人 当中 
Te TALE ono aii A A Brat REE. Oki 
。 需 要 说 明 的 是 ， 从 另外 一 个 方面 讲 ， 这 并 没 绚 含 任何 因果 关系 。 这 有 可 能 是 本 书 鼓 励 
了 读者 失事 研究 ”也 可 能 是 忆 经 做 研究 的 读者 期 望 本 书 能 够 给 予 他 们 帮助 。 
用 于 表征 信息 度 的 简单 评分 函数 一 般 离 不 开 先 验 概率 P(b) 同 后 验 概率 p(bla)〈 在 知道 事 
件 a 是 真 的 情况 下 ) 之 间 的 “距离 ”， 因 此， 举例 来 说 ， 一 种 可 能 的 尺度 就 是 简单 地 计算 这 两 


个 概率 之 问 的 绝对 距离 PC1a) - pO 或 者 计算 对 数 赠 率 比 例 的 关 值 log PS 其 中 5 


代表 某 个 人 不 是 数据 挖掘 研究 者 这 一 事件 。 

当 我 们 比较 不 同 的 模式 时 ， 比 如 说 比较 p(bla) 和 p(plc) 时 ， 考 虑 模式 的 和 覆盖面 (coverage) 
一 一 也 就 是 说 这 个 模式 所 适用 数据 占 的 比例 一 一 是 非常 有 用 的 。 继 续 我 们 上 面 所 举 的 例子 ， 
用 c 来 表示 随机 选择 的 数据 挖掘 者 是 本 书 的 三 位 作者 之 一 这 一 事件 。 第 二 个 模式 可 能 是 “如 
Hc 那么 p”(“ 如 果 一 个 任 选 的 数据 挖掘 者 是 本 书 的 三 位 作者 之 一 ， 那 么 它 是 一 个 数据 挖掘 
的 研究 者 ”)， 并 且 p(ble) = 1， 因 为 本 书 的 三 位 作者 都 是 数据 挖掘 的 研究 者 。 事 实 上 ， 事 件 c 
仅 适 用 于 三 位 数据 挖掘 者 ， 是 数据 挖掘 者 这 个 集合 中 很 小 的 一 个 部 分 。 另 一 方面 ，( 我 们 希 
望 ) 事件 a 的 覆盖 面 更 大 一 些 ， 也 就 是 说 ， 事 件 a 的 概率 mg 显著 大 于 事件 c 的 概率 plc). 
为 了 说 明 这 一 点 , 假设 p(a) = 0.2 而 p(c) = 0.003。 那 么 , 尽管 第 二 个 模式 非常 精确 Cp(blc = 1), 
但 是 并 不 是 非常 的 有 用 ， 因 为 它 仅仅 适用 于 整个 总 体 中 很 小 的 一 部 分 〈0.3% )， 而 第 一 个 模 
式 尽管 不 是 很 精确 (p(bla) = 0.75)， 但 却 具有 较 广 泛 的 适用 性 (达到 总 体 的 20%)。 可 以 很 容易 
的 设计 出 不 同 的 尺度 来 增 大 评分 函数 对 覆盖 面 的 重视 。 例 如 ， 我 们 可 以 把 前 面 定义 的 评分 函 
数 乘 上 条 件 事件 的 概率 p(a)lp(bla)-p(BP) = lp(b,a)-p(b)p(_)I， 可 以 把 这 一 尺度 解释 为 :衡量 
了 两 个 概率 事件 a Mb 在 假定 独立 情况 下 的 概率 和 观察 到 的 联合 概率 之 间 的 差异 。 另 一 种 方 
ERE NPBA p,， 然 后 仅 搜 索 覆 盖 面 大 于 p 的 模式 ， 在 关联 规则 挖掘 中 所 使 用 的 《〈 第 5 
章 和 第 13 章 ) 就 是 这 种 方法 。 

在 数据 挖掘 文献 中 ， 还 提出 了 其 他 众多 用 于 评价 模式 的 评分 函数 。 不 过 都 没有 得 到 广泛 的 接 
受 或 成 为 通用 的 方法 ， 这 很 大 程度 上 是 因为 判断 一 个 模式 的 新 颖 性 和 有 效 性 经 常 是 非常 主观 的 和 
面向 具体 应 用 的 。 因 而 ， 目 前 实践 中 使 用 得 最 多 的 方法 还 是 邀请 该 领域 的 专家 进行 人 工 解释 (也 
就 是 让 人 来 浏览 并 解释 数据 挖掘 算法 所 产生 的 候选 模式 )。 





7.3 ”预测 性 评分 函数 和 描述 性 评分 函数 


我 们 现在 转向 讨论 用 于 模型 的 评分 函数 。 相 对 于 评价 模式 的 评分 函数 来 说 ， 可 供 选 择 的 
评价 模型 的 评分 函数 要 多 得 多 。 
7.3.1 评价 预测 模型 的 评分 函数 

一 个 很 方便 的 切入 点 是 考虑 预测 性 评分 函数 和 描述 性 评分 函数 之 间 的 区 别 。 用 于 预测 问 
题 的 评分 函数 都 是 非常 直截了当 的 。 在 预测 任务 中 ， 训 练 数 据 具 有 “目标 ” 值 Y， 对 于 回归 
来 说 了 是 一 个 数量 型 变量 ， 对 于 分 类 来 说 了 是 一 个 范畴 性 变量 ， 而 且 数 据 集 合 D={(x(1), 
y(1))，…，(x(n)，y(m))} 是 由 输入 向 量 和 目标 值 这 样 的 对 侦 组 成 的 。 令 f(x(i);9) 为 模型 使 用 
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参数 值 OM MA i EBRIA, 1<i<n,. > y@ 为 训练 数据 集合 中 对 应 于 第 i 个 个 体 的 实际 
观测 值 (或 称 为 “目标 ” 值 )。 

很 明显 ， 我 们 的 评分 函数 应 该 为 预测 值 f (x(i); 6 ) 与 目标 值 xi 间 差 值 的 函数 。 对 于 Y 
为 数量 型 变量 的 情况 ， 普 遍 使 用 的 评分 函数 包括 误差 平方 和 等 


N 
Ssss(0) = FA GD- yO)? (7.1) 
i=] 
对 于 Y 为 范畴 型 变量 的 情况 , 普遍 使 用 的 是 误 分 类 率 (或 称 误差 率 , 又 出“0-1(zero-one)” 
评分 函数 )， 也 就 是 : 


N 
— 
Un 


N 
SuO=4 $ IA: (7.2) 
i=l 
其 中 ， 当 a REF bY, Kab) = 1 否则 等 于 0。 这 是 分 别 用 于 回归 和 分 类 的 两 种 应 用 最 广 的 
评分 函数 。 这 两 种 评分 函数 很 简单 易 懂 并 且 经 常 可 以 使 优化 问题 变 得 非常 直接 明了 《至少 对 
于 误差 平方 和 是 这 样 )。 

然而 需要 说 明 的 是 ， 我 们 已 经 在 这 些 评分 函数 的 定义 中 作 了 一 些 很 强 的 假定 。 例 如 ， 在 
对 每 个 个 体 误 差 求 和 中 我 们 假定 所 有 个 体 的 误差 都 被 平等 地 看 待 。 这 是 一 个 非常 普遍 而 且 通 
党 很 有 用 的 假定 。 然 而 ， 如 果 《〈 举 例 来 说 ) 我 们 有 一 个 数据 集 ， 其 中 的 测量 值 是 在 不 同时 间 
测 出 的 ， 那 么 ， 我 们 或 许 希望 在 预测 评分 函数 中 给 最 近 几 次 的 测量 值 分 配 更 大 一 些 的 权 。 类 
似 地 ， 在 数据 集中 我 们 可 能 有 不 同 的 条 目 子 集 ， 某 些 条 目 子 集中 对 应 的 目标 值 可 能 比 另外 一 
些 子 集中 的 更 可 靠 一 些 (比如 可 以 根据 子 集 测量 误差 的 某 个 量化 指标 来 判断 )。 这 样 我 们 可 
能 希望 在 预测 评分 函数 中 给 那些 测量 值 可 靠 性 较 低 的 条 目 分 配 较 小 的 权 。 

此 外 ， 两 种 评分 函数 都 仅 是 关于 预测 值 和 目标 值 之 间 差 异 的 函数 一 一 特别 值得 一 提 
的 是 它们 并 不 依赖 于 目标 值 y(i)。 我 们 需要 对 此 作 一 些 必要 的 考虑 。 例 如 ， 如 果 了 是 表 
示 某 人 是 否 患 有 癌症 这 一 事件 的 一 个 范畴 型 变量 ， 那 么 我 们 可 能 希望 给 没有 检查 出 真 的 
癌症 患者 这 一 误差 较 大 的 权 ， 而 给 误 报 癌症 这 一 误差 较 小 的 权 。 对 于 Y 给 出 真实 值 的 情 
况 ， 误 差 平 方 可 能 是 不 恰当 的 一 一 或 许 误差 绝对 值 可 以 更 恰当 地 反映 模型 的 质量 (误差 
平方 对 了 的 观察 值 和 了 的 预测 值 间 的 极端 差异 会 比 误差 绝对 值 给 出 更 大 的 权 )。 再 举 一 个 
例子 (第 三 个 例子 )， 在 投资 方案 中 ， 我 们 更 容易 接受 (能 容忍 ) 了 的 预测 值 低估 实际 值 
的 情况 ， 而 不 愿意 接受 高 估 的 预测 (从 风险 的 角度 来 考虑 )， 这 告诉 我 们 有 时 采用 不 对 称 
函数 可 能 更 恰当 。 

以 上 介绍 的 基本 评分 函数 都 相当 地 简单 。 因 此 ， 我 们 可 能 需要 在 实际 应 用 过 程 中 对 这 些 
基本 评分 函数 进行 调整 ， 以 更 加 地 精确 反应 我 们 的 数据 挖掘 项 目的 具体 目标 。 有 时 候 这 种 调 
到 并 不 简单 “定义 “实际 目标 值 ”可 能 就 很 困难 ， 尤 其 是 在 数据 挖掘 中 很 多 问题 经 常 都 是 开 
放 性 的 (open ended))。 在 另外 一 些 情况 下 ， 即 使 我 们 不 能 精确 地 描述 目标 值 ， 也 能 够 改善 
基本 评分 函数 。 例 如 ， 对 于 癌症 问题 的 例子 ， 可 以 不 使 用 0-1 损失 函数 ， 而 定义 一 种 基于 成 
ASEM (cost matrix) 的 评分 函数 可 能 更 恰当 。 于 是 ， 令 天 为 预测 出 的 类 ， 令 大 为 实际 所 属 
的 类 ， 那 么 定义 一 个 “成 本 ”矩阵 c (天 昌 ，1 么 大，K 委 玉 来 反映 把 一 个 实际 属于 大 类 的 患者 
分 类 到 大 类 中 的 严重 程度 。 
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在 选择 一 个 用 于 特定 预测 性 数据 挖掘 任务 的 评分 函数 时 , 通常 要 在 选择 简单 评分 函数 ( 比 
如 说 误差 平方 和 ) 和 更 复杂 评分 函数 之 间 进 行 一 些 平衡 。 比 较 简 单 评分 函数 通常 更 便于 计算 
并 且 更 容易 定义 。 然 而 ， 比 较 复杂 的 评分 函数 《例如 刚才 提 到 的 那些 评分 函数 〉 可 能 会 更 好 
地 反映 预测 问题 的 实际 情况 。 非 常 重要 的 一 点 是 许多 数据 挖掘 算法 〈 比 如 树 模型 、 线 性 回归 
模型 等 等 ) 原则 上 可 以 使 用 通用 的 评分 函数 一 一 举例 来 说 ， 基 于 交叉 验证 的 算法 可 以 使 用 任 
何 定义 完备 的 评分 函数 。 当 然 在 实践 中 并 不 是 所 有 软件 包 都 允许 数据 挖掘 者 自己 定义 面向 应 
用 的 评分 函数 ， 尽 管 在 理论 上 是 可 以 这 样 做 的 。 


7.3.2 ”评价 描述 模型 的 评分 函数 


对 于 描述 模型 来 说 不 存在 任何 要 预测 的 “目标 ”变量 ， 所 以 如 何 定义 评分 函数 不 像 预测 
建 模 中 那样 明确 。 一 种 基本 的 方法 是 通过 似 然 函 数 ， 在 第 4 章 中 我 们 曾 介绍 过 似 然 函数 ， 不 
过 在 这 里 我 们 是 从 一 个 稍微 不 同 的 角度 再 对 其 进行 描述 。 令 (x;9) 为 对 观察 数据 点 x 的 估计 
概率 ， 和 模型 方 取 参 数值 0 时 所 定义 的 相同 ， 其 中 X 是 范畴 型 变量 扩展 到 连续 变量 的 情 
况 是 非常 容易 的 ， 只 要 把 换 为 概率 密度 函数 )。 如 果 一 个 模型 很 好 ， 那 么 它 应 该 对 观察 到 
数据 点 的 那些 X 值 给 出 较 高 的 概率 。 因 此 可 以 把 函数 5 (x) 看 作 评价 模型 在 观察 点 x 处 质量 
的 尺度 一 也 就 是 评分 函数 。 这 正 是 最 大 似 然 〈 第 4 章 ) 的 基本 思想 ， 再 强调 一 遍 就 是 : 更 
好 的 模型 应 该 赋 给 观测 到 的 数据 更 高 的 概率 。( 实 际 上 ， 只 有 当 我 们 所 考虑 的 所 有 模型 都 共 
有 相同 的 函数 复杂 度 时 ， 这 种 比较 才 是 “公平 的 ” 本 章 的 后 面 将 讨论 如 何 比较 具有 不 同 
函数 复杂 度 的 模型 )。 

如 果 假 定数 据点 是 独立 产生 的 ， 那 么 我 们 把 每 个 独立 数据 点 的 评分 函数 组 合 起 来 得 到 总 的 评 
分 函数 ， 组 合 方法 就 是 把 它们 乘 到 一 起 ; 














LO=T [200 (7.3) 
i=l 
这 就 是 第 4 章 中 所 介绍 的 似 然 函数 ， 对 于 一 个 数据 点 集合 ， 我 们 使 该 函数 最 大 化 以 求 出 
9 的 估计 值 。 正 如 在 第 4 章 中 所 指出 的 ， 对 数 似 然 log-likelihood) 通常 使 用 起 来 更 加 方便 。 
那么 现在 每 个 数据 点 对 总 的 评分 函数 的 贡献 就 是 log À aO; 9 )， 总 的 评分 函数 就 是 这 些 贡 献 
的 和 : 


log L(@ )= È, log jx(D;6) (7.4) 


i=l 


很 多 时 候 我 们 取 log PP (x();0) 的 负数 ， 那 么 就 只 需 最 小 化 这 个 评分 函数 。 因 此 我 们 定义 : 


$1(0 ) = -log 1(0)=- log P(x(i);0) (7.5) 
i=l 
对 此 评分 函数 的 直观 解释 是 ，-log ERAD CEM p EMMEK RERNA BGR 
点 的 这 一 误差 进行 汇总 。 的 最 大 可 能 取 值 是 1 〈 对 于 范畴 型 数据 )， 对 应 于 S (0 的 最 小 什 
0。 因 此 ， 我 们 可 以 把 8 (0) BREA, COT SH 0 压缩 〈 或 预测 ) 训练 数据 的 好 
坏 程 度 。 
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似 然 〈 或 者 负 的 对 数 似 然 也 完全 等 价 ) 的 一 个 特别 有 用 特性 就 是 它 非常 通用 。 它 适用 于 
模型 或 模式 被 表示 为 概率 函数 的 所 有 问题 中 。 例 如 ， 假 定 在 某 个 预测 模型 中 了 是 某 个 预测 变 
E X 以 及 额外 随机 分 布 误差 的 理想 线性 函数 和 我 们 上 一 节 所 讨论 的 一 样 )。 如 果 我 们 能 够 
找到 用 于 描述 这 些 误差 概率 分 布 的 参数 形式 ， 那 么 就 能 够 相对 模型 中 的 参数 来 计算 数据 的 似 
然 。 事 实 上 ， 正 如 我 们 在 第 4 章 中 看 到 的 ， 如 果 误 差 项 被 假定 为 均值 为 0 WESS KF 
和 的 确定 性 函数 )， 那 么 似 然 函 数 就 等 价 于 误差 平方 和 评分 函数 。 

尽管 ( 负 的 对 数 ) 似 然 是 一 种 强 有 力 的 评分 函数 ， 但 也 有 局 限 性 。 特 别 是 当 确 定 参数 时 
如 果 赋 给 某 些 数据 点 的 概率 接近 于 0， 那 么 负 的 对 数 似 然 将 趋向 于 负 无 穷 大 。 因 此 ， 总 的 误 
差 会 被 部 分 极端 数据 点 所 支配 。 如 果 同 一 个 数据 点 的 实际 概率 也 非常 小 ， 那 么 模型 将 会 对 密 
度 函数 末端 的 预测 (可 能 性 非常 小 的 事件 ) 给 予 惩罚 。 这 可 能 对 模型 的 实际 效果 影响 很 小 。 
反 过 来 看 ， 这 样 做 可 能 会 产生 某 些 问 题 (例如 要 预测 稀有 事件 的 发 生 情况 )， 有 可 能 我 们 非 
常 感 兴趣 的 预测 就 位 于 密度 函数 的 末端 。 因此， 尽管 似 然 函 数 是 基于 较 强 的 理论 基础 并 且 对 
于 评价 概率 模型 一 般 都 是 适用 的 ， 但 是 要 认识 到 它 并 非 一 定 能 反映 出 模型 在 特定 任务 下 的 实 
际 效 果 ， 这 一 点 是 非常 重要 的 。 其 他 用 于 判断 概率 模型 预测 质量 的 评分 函数 还 有 很 多 ， 各 有 
特色 。 举 例 来 说 ， 我 们 可 以 定义 估计 概率 (x; 9 ) 和 实际 概率 p (x) 间 的 误差 平方 的 积分 ， 即 
JO Opo ae 把 平方 展开 ， 并 忽略 不 依赖 于 9 的 项 ， 便 得 到 了 一 个 形式 为 | p (0)? dx 


-2E[ PCx:0 的 评分 函数 ， 可 以 根据 试验 来 近似 其 中 的 每 一 项 以 估计 出 关于 6 的 误差 平方 函 
数 的 真实 积分 。 

对 于 非 概率 性 描述 模型 〈 比 如 说 基于 分 割 聚 类 ) 可 以 相当 容易 地 为 其 找到 各 种 各 样 的 评 
分 函数 ， 比 如 基 十 各 个 聚 类 的 分 割 程度 、 紧 缩 程 度 等 等 。 举 例 来 说 ， 对 于 简单 的 基于 原型 育 
类 (在 第 9 章 中 讨论 的 大 均值 方法 )， 一 种 简单 而 且 应 用 很 广 的 评分 函数 就 是 对 每 个 聚 类 内 
误差 平方 进行 汇总 : 





K 
Sks (0) = Vee = 》 1x0- (7.6) 
k=l lecluster, 
其 中 6 是 聚 类 模型 的 参数 向 量 ，9 = { 4, … , Wx}; pL 是 聚 类 的 中 心 。 然 而 ， 要 使 评分 函数 正 
式 地 反映 各 个 聚 类 与 “真实 ”情况 如果 这 样 比较 是 有 意义 的 ) 的 接近 程度 是 相当 困难 的 。 
对 一 种 聚 类 效果 的 最 终 裁判 依赖 于 这 种 聚 类 的 具体 应 用 环境 。 看 它 是 否 从 新 的 角度 揭示 了 数 
据 的 内 幕 ? 是 否 可 以 产生 可 解释 的 数据 分 类 ? 等 等 。 通 常 仅 能 够 针对 特定 问题 的 上 下 文 来 回 
答 这 些 问 题 ， 无 法 用 单一 的 评价 标准 来 表征 。 换 言 之 ， 用 于 像 聚 类 这 种 任务 的 评分 函数 不 一 
定 与 用 于 该 问题 的 真实 工作 函数 密切 相关 。 我 们 将 在 第 9 章 中 回来 讨论 关于 聚 类 任务 的 评分 
函数 问题 。 
概括 来 说 ， 对 于 诸如 分 类 、 回 归 以 及 密度 估计 等 任务 都 有 一 些 简单 的 “通用 ”评分 函数 ， 
并 各 有 特色 适用 于 不 同 的 情况 。 然 而 ， 每 一 种 评分 函数 都 有 其 局 限 性 ， 最 好 是 把 这 些 评分 函 
数 作为 基础 然后 根据 具体 应 用 设计 出 更 合适 的 评分 函数 。 





7.4 ”评价 不 同 复杂 度 的 模型 


在 前 面 的 章节 中 我 们 将 评分 函数 描述 为 衡量 观测 到 数据 与 提出 模型 之 问 差异 的 某 个 太 
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度 。 有 人 可 能 认为 接近 实际 数据 的 模型 〈 从 评分 函数 的 角度 来 看 ) 使 是 “好 的 ”模型 。 但 是 
还 需要 看 建 模 的 目的 。 


7.4.1 ”模型 比较 的 一 般 概 念 


我 们 可 以 区 分 两 种 情况 〈 像 我 们 在 前 面 章节 的 讨论 那样 )。 一 种 情况 是 我 们 只 希望 构建 
一 个 对 数据 集合 进行 概要 描述 的 模型 ， 用 来 捕捉 数据 的 主要 特征 。 举 例 来 说 ， 我 们 可 能 想 从 
一 个 特定 的 化 合 物 系 列 中 概要 地 提取 这 一 家 族 中 的 主要 化 合 物 ， 在 我 们 的 数据 库 中 包含 了 这 
一 家 族 的 所 有 可 能 成 员 记 录 。 在 这 种 情况 下 ， 模 型 的 精确 度 是 极为 重要 的 一 一 尽管 模型 的 精 
确 度 可 以 通过 综合 性 的 考察 来 调整 。 可 以 准确 地 再 生 数 据 的 模型 ， 或 者 以 某 种 等 价 形式 描述 
了 数据 的 模型 的 精确 度 最 高 。 但 是 这 种 情况 下 ， 建 立 模型 的 全 部 目的 就 是 要 降低 数据 的 复杂 
度 ， 得 到 某 种 更 易于 理解 的 形式 。 在 像 这 样 的 情况 下 ， 模 型 对 数据 的 拟 合 程度 是 整个 评价 斥 
度 的 一 个 部 分 ， 另 一 部 分 就 是 模型 的 易 理 解 程度 Ccomprehensibility) (而且 这 一 部 分 是 主观 
的 )。 这 一 背景 下 的 一 种 通用 技术 是 以 数据 压缩 和 信息 理论 为 基础 的 ， 在 这 种 方法 中 评分 函 
数 通常 被 分 解 为 : 

S, (0, M) = 通过 给 定 模型 描述 数据 所 需 的 二 进 制 位 数 十 描述 模型 〈 和 参数 ) 的 二 进 制 
位 数 


其 中 第 一 项 衡量 了 对 数据 的 拟 合 度 ， 第 二 项 衡量 了 模型 M 和 它 的 参数 的 复杂 度 。 实 际 
上 ， 可 以 使 用 5,=-log p (D10, M) 《〈 负 的 对 数 似 然 函 数 ， 底 数 是 2》 作 为 第 一 项 〈“ 通 过 给 定 
模型 描述 数据 所 需 的 二 进 制 位 数 ”)。 使 用 -log pM) 《这 实质 上 相当 于 对 第 4 章 中 讨论 的 普 
通 贝 叶 斯 评分 函数 取 负 的 对 数 ) 作为 第 二 项 (“描述 模型 (和 参数 ) 的 字 节 数 ”)。 直 观 地 讲 ， 
我 们 可 以 把 -log p (0, M) 〈 第 二 项 参数 ) 看 作 是 把 模型 结构 从 某 个 假设 的 发 送 程序 以 二 进 制 位 
为 单位 传送 到 另 一 个 假设 的 接收 程序 所 花费 的 传输 “代价 ”， 而 把 % 《第 一 项 参数 ) 看 成 是 
传输 模型 和 参数 中 没有 说 明 的 那 部 分 数据 (误差 〉 所 花费 的 “代价 ”通常 这 两 部 分 的 变化 
方向 是 相反 的 一 一 复杂 的 模型 可 以 很 好 地 拟 合 数据 ， 而 简单 的 模型 更 易于 理解 。 总 的 评分 函 
数 对 这 两 者 进行 折衷 得 到 可 接受 的 模型 。 

另外 一 种 一 般 的 情况 是 ,我 们 的 实际 目的 是 从 现 有 数据 泛 化 到 可 能 出 现 的 新 数据 。 例 如 ， 
我 们 可 能 希望 推理 出 新 顾客 的 可 能 行为 或 推断 还 没有 观察 到 的 天 体 的 可 能 属性 。 因 此 要 再 次 
重申 ， 尽 管 对 观测 到 数据 的 拟 合 度 显然 是 一 个 好 模型 的 必要 条 件 ， 但 不 是 全 部 。 特 别 是 因为 
数据 没有 代表 整个 总 体 〈 如 果 代 表 了 的 话 ， 那 么 就 不 需要 泛 化 了 )， 所 以 观测 到 数据 的 某 些 
特征 (“噪声”) 并 不 是 整个 总 体 的 属性 ， 反 之 亦 然 。 一 个 非常 好 的 拟 合 观测 到 数据 的 模型 也 
会 拟 合 这 些 特 征 一 一 因此 不 会 提供 最 好 的 预测 。 因 此 ， 我 们 需要 修改 简单 的 拟 合 度 尺度 以 定 
义 一 个 全 面 的 评分 函数 。 特 别 地 ， 我 们 需要 加 入 一 个 部 分 来 防止 模型 变 得 太 复杂 ， 避 免 拟 合 
观察 数据 的 所 有 特异 性 。 

无 论 是 对 于 两 种 情况 中 的 哪 一 种 ， 理 想 的 评分 函数 都 是 在 很 好 的 拟 合 数据 和 模型 的 简洁 
性 间 达 到 菜 种 折衷 ， 只 不 过 是 实现 折衷 的 理论 根据 有 所 不 同 。 这 种 不 同 可 能 意味 着 不 同 的 评 
分 函数 适合 于 的 不 同情 况 。 因 为 当 我 们 的 目标 就 是 概括 数据 集合 的 主要 特性 时 ， 那 么 这 种 折 
囊 必 然 包 含 一 定 的 主观 成 分 (“数据 挖掘 者 认为 什么 样 的 模型 是 可 接受 的 简单 模型 7?“”)， 在 
这 里 ， 我 们 将 集中 关注 另 一 种 情况 : 我 们 的 目的 是 根据 现 有 的 数据 决定 哪 一 个 模型 对 于 未 见 
过 的 数据 会 有 最 好 的 性 能 。 
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7.42 ”再 谈 偏 差 -方差 


在 分 析 可 以 评估 模型 对 未 见 过 数据 的 拟 合 程度 的 评分 函数 前 ， 我 们 先 讨 论 一 下 为 什么 必 
须 避 免 与 现 有 数据 拟 合 得 太 近 。 我 们 在 第 4 章 中 介绍 参数 6 的 估计 时 讨论 了 偏差 和 方差 ， 在 
这 里 我 们 从 评分 函数 的 角度 再 讨论 一 下 这 个 问题 。 

正如 我 们 在 前 面 章节 中 所 指出 的 ， 选 择 出 完全 “正确 ”的 模型 结构 是 绝对 不 可 能 的 。 
因为 现实 世界 中 的 很 多 特征 是 无 法 用 模型 所 精确 描述 的 (而 且 “ 正 确 ” 的 含义 是 什么 ， 这 
里 面 也 有 很 多 深层 的 问题 )。 这 意味 着 选取 的 模型 形式 仅仅 提供 了 一 种 对 “真实 情况 ”的 
近似 。 就 拿 预测 模型 来 说 。 对 于 X 的 任 一 个 给 定 值 〈 假 设 它 是 一 元 的 以 使 描述 简单 同 
样 的 结论 也 完全 适用 于 X 为 多 元 的 情况 )， 模 型 给 出 的 了 预测 值 可 能 不 是 精确 的 。 更 严格 
地 说 ， 假 定 我 们 抽取 了 许多 不 同 的 数据 集 ， 然 后 把 一 个 具有 指定 结构 的 模型 《比如 一 个 分 
段 局 部 模型 ， 模 型 的 分 量 数目 是 确定 的 ， 每 个 分 量 的 复杂 度 也 是 给 定 的 ; 或 者 一 个 给 定 了 
次 数 的 关于 X 的 多 项 式 函 数 ， 等 等 ) 拟 合 到 这 些 数据 集中 的 每 一 个 ， 然 后 计算 对 于 任意 X 
值 Y 预测 值 的 期 望 。 那 么 这 个 期 望 的 预测 值 不 可 能 与 实际 值 完 全 一 致 。 也 就 是 说 ， 对 于 一 
个 给 定 的 X 值 ， 模 型 可 能 提供 一 个 对 真实 Y 值 的 有 偏 预测 。( 回 忆 在 第 4 章 中 我 们 把 估计 
的 偏差 定义 为 估计 值 ( 预 测 值 》 和 真实 值 间 的 差异 )。 因 此 ， 完 美的 预测 是 一 种 无 法 实现 
的 奢望 ! 

不 过 ， 我 们 可 以 通过 提高 模型 结构 的 复杂 度 使 预测 的 期 望 值 与 未 知 真实 值 之 间 的 差异 更 
小 (事实 上 ， 对 于 某 些 情况 和 某 些 种 类 的 模型 ， 我 们 可 以 使 这 个 差 值 任意 的 小 )。 在 上 面 的 
例子 中 ， 这 意味 着 在 分 段 线性 模型 中 增加 分 量 的 数目 ， 或 者 提高 多 项 式 的 次 数 。 

和 车 一 看 ， 这 岂 不 是 很 好 一 一 只 要 使 用 一 种 足够 复杂 的 模型 结构 ， 那 么 就 可 以 得 到 任意 精 
确 的 模型 (以 偏差 衡量 )。 不幸 的 是 ， 没 有 这 样 的 免费 午餐 ， 精 度 在 偏差 方面 的 提高 是 以 损 
失 其 他 性 能 为 代价 的 。 

由 于 模型 结构 的 极度 灵活 性 ， 对 于 任意 的 固定 X 值 ， 模 型 的 预测 可 能 会 因数 据 集 的 不 同 
而 有 很 大 的 差异 。 也 就 是 说 ， 尽 管 对 于 给 定 值 X 所 获得 了 预测 值 的 平均 值 非常 接近 了 的 真 
实 值 《这 就 是 较 小 偏差 的 含义 )， 但 是 从 不 同 数据 集 获得 的 预测 值 之 间 会 有 很 大 的 差异 ， 因 
为 在 实践 中 ， 我 们 总 是 仅仅 观察 到 这 些 预测 值 中 的 一 个 (我 们 实际 上 仅 有 一 个 数据 集 用 来 估 
计 模 型 的 参数 )， 所 以 “平均 ”效果 好 提供 的 帮助 很 少 。 尽 管 我 们 知道 了 我 们 选择 的 是 一 个 
产生 的 预测 值 与 平均 值 相 差 很 大 的 数据 集 。 可 是 又 有 何 用 呢 ? 

还 可 以 用 另 一 种 方式 来 观察 这 个 问题 。 我 们 这 种 非常 灵活 的 模型 〈 例 如 ， 大 量 的 分 段 分 
量 或 很 高 的 次 数 ) 会 非常 紧密 地 跟随 数据 。 因 为 ， 对 任 一 给 定 的 X， 了 的 观察 值 是 关于 它 的 
均值 随机 分 布 的 ， 所 以 我 们 的 灵活 模型 也 会 把 了 的 观察 值 中 的 随机 分 量 模型 化 。 也 就 是 说 ， 
这 种 灵活 模型 过 度 拟 合 了 数据 。 

最 后 (不 过 这 实际 上 又 是 以 另 一 种 方式 来 观察 同一 个 问题 )， 增 加 模型 结构 的 复杂 度 意 
味 着 增加 了 要 估计 的 参数 的 数量 。 通 常 来 说 ， 如 果 要 估计 更 多 的 参数 ， 那 么 每 个 估计 的 准确 
性 就 会 下 降 ( 它 相对 不 同 数据 集 的 方差 会 增 大 )。 

以 上 偏差 和 方差 的 互补 性 被 称 为 偏差 -方差 平衡 (bias-variance trade-off)。 我 们 希望 选 
取 的 模型 方差 和 偏差 都 不 要 太 大 一 一 但 是 降低 二 者 中 的 任 一 个 往往 会 增 大 另 一 个 。 可 以 把 它 
们 组 合 起 来 以 得 到 一 个 总 的 数据 和 模型 之 间 差 异 尺度 ， 这 便 是 均 方 误差 (mean squared error, 
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MSE)。 考 虑 我 们 前 面 所 讨论 的 标准 回归 ， 在 那里 这 我 们 假定 y AL x〈 现 在 我 们 将 其 推广 到 
向 量 的 情况 ) 的 决定 性 函数 ， 并 带 有 一 个 附加 的 噪声 ， 也 就 是 y =f Oe) te, He 是 
均值 为 0 的 正 态 分 布 (举例 )。 因 此 ，4,=E (ylx) 代表 任何 一 个 给 定数 据点 x 对 应 的 真实 
(CRAD 期 望 值 (这 里 期 望 E 是 相对 噪声 e 的 )， 而 = 广 (x;9) 是 我 们 的 模型 和 拟 合 的 参数 
9 所 给 出 的 预测 。 于 是 在 x 点 的 MSE 被 定义 为 : 


MSE (x) =E[$—py)? 
= Et- ES) + ELEG) -uyl (1.7) 


也 就 是 说 ，MSE== 方 差 十 偏差 :。( 这 里 的 期 望 E 是 相对 于 pd), 也 就 是 对 于 某 个 固定 
的 容量 ”所 有 可 能 数据 集 的 概率 分 布 )。 这 个 等 式 经 得 住 细致 地 推 项 。 这 里 我 们 将 预测 ? 当 
作 一 个 随机 量 ， 它 的 随机 性 是 由 产生 训练 数据 D 的 随机 抽样 而 导致 的 。 不 同 数据 值 D 可 导 
致 不 同 的 模型 和 参数 ， 以 及 不 同 的 预期 了 。 期 望 值 E 是 相对 具有 同一 数据 量 的 不 同 数 据 集 
的 (每 个 都 可 随机 从 问题 域 中 任意 抽取 )。 方 差 项 EF -EO 告诉 我 们 估计 乡 会 如 何 随 不 
同 的 可 能 数据 集 变化 。 换 名 话说 ， 它 衡量 了 乡 对 训练 模型 的 特定 数据 集 的 敏感 度 。 举 一 个 极 
端的 例子 ， 如 果 我 总 是 选取 常数 y 作为 预测 值 ， 而 根本 不 考虑 数据 ， 那么 这 个 方差 则 为 零 。 
而 在 另 一 个 极端 ， 如 果 我 们 有 一 个 有 许多 参数 的 极端 复杂 的 模型 ， 我 们 的 预测 乡 则 会 随 不 同 
训练 数据 集 的 变化 而 剧烈 变化 。 

偏差 项 E[(E$)-w] 反 映 了 预测 中 的 系统 误差 一 一 也 就 是 预测 的 平均 什 E($》) 和 真实 值 之 
间 的 差距 。 如 果 我 们 忽略 所 有 数据 ， 就 使 用 常数 y 作为 预测 ， 那么 偏差 会 很 大 《〈 人 也 就 是 说 ， 
这 个 差异 会 很 大 )。 如 果 我 们 使 用 一 个 更 复杂 的 模型 ， 那么 我 们 的 平均 预测 就 会 更 接近 真实 
值 ， 但 是 方差 可 能 很 大 。 偏 差 -方差 矛盾 量化 了 简单 模型 (方差 小 ， 但 偏差 可 能 很 大 ) 和 较 
复杂 模型 (可 能 偏差 很 小 ， 但 方差 通常 很 高 ) 之 间 的 这 种 牵制 关系 。 

当然 ， 在 实践 中 我 们 所 感 兴趣 的 是 所 评估 函数 在 整个 定义 域 上 的 平均 MSE, 因此 我 们 
把 MSE (相对 于 输入 分 布 p(x)) 定义 为 | MSE (x) p(x)dx， 这 种 定义 同样 也 具有 相 加 分 解 


性 〔 因 为 期 望 是 线性 的 )。 

注意 虽然 原则 上 我 们 可 以 衡量 预测 了 的 方差 (例如 ， 使 用 某 些 二 次 抽样 技术 ， 比 如 自 展 
法 (bootstrap method))， 但 偏差 总 是 未 知 的 ， 因为 它 包含 了 本 身 未 知 的 (要 从 数据 中 学 习 
的 )。 因 此 ， 偏 差 -方差 分 解 目前 主要 还 处 于 理论 研究 阶段 ， 因 为 我 们 无 法 衡量 偏差 部 分 ， Al 
此 这 也 决定 了 无 法 给 出 一 个 可 以 把 这 两 方面 的 估计 错误 结合 到 一 起 的 评分 函数 。 但 是 实践 中 
的 意图 通常 是 很 清楚 的 ， 我 们 需要 的 模型 既 不 该 太 不 灵活 (以 防止 预测 值 存在 内 在 偏差 ); 
也 不 该 太 灵活 〈 以 防止 预测 值 存在 内 在 方差 )。 也 就 是 说 ， 我 们 需要 一 个 这 样 的 评分 函数 ， 
它 可 以 处 理 不 同 复杂 度 的 模型 ， 并 且 可 以 考虑 偏差 -方差 之 间 的 折衷 ; 又 可 以 实现 。 这 就 是 
下 一 节 我 们 要 讨论 的 焦点 。 

我 们 应 注意 到 在 某 些 数据 挖掘 应 用 中 ， 方 差 的 问题 可 能 不 是 非常 重要 ， 尤其 是 当 与 用 来 
拟 合 模型 的 数据 量 相 比 模型 很 简单 的 时 候 。 这 是 因为 方差 是 样本 大 小 的 函数 〈 正 如 我 们 在 第 
4 音 中 所 讨论 的 )。 增 加 样本 大 小 就 会 减 小 估计 量 的 方差 。 不 幸 的 是 ， 并 没有 一 条 通用 的 法 
则 来 说 明 方差 和 过 度 拟 合 在 哪些 情况 下 很 重要 ， 哪 些 情况 下 不 太 重要 。 它 既 依赖 于 训练 数据 
D 的 样本 大 小 ， 又 依赖 于 被 拟 合 模型 的 复杂 度 。 
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7.4.3 惩罚 复杂 模型 的 评分 函数 


那么 ， 如 何在 灵活 性 《以 便 合 理 地 拟 合 现 有 数据 ) 和 过 度 拟 合 〈 模 型 拟 合 了 数据 中 的 随 
机 成 分 》 中 选择 一 种 合适 的 折衷 方案 呢 ? 一 种 方法 是 选择 一 种 封装 了 这 种 折衷 的 评分 函数 。 
也 就 是 说 ， 选 择 一 种 总 的 评分 函数 ， 它 是 由 两 个 部 分 组 成 的 ， 一 部 分 衡量 模型 对 数据 的 拟 合 
程度 ， 另 一 部 分 用 来 鼓励 简洁 性 。 这 便 得 到 了 一 种 如 下 形式 的 评分 函数 : 

score(model) = error(model)+ penalty-function(model) 

我 们 的 目标 是 最 小 化 这 一 评分 函数 。 在 前 面 几 节 中 我 们 已 经 讨论 了 几 种 不 同 的 方式 来 定义 这 
个 评分 函数 中 的 误差 部 分 ， 那 么 附加 的 惩罚 部 分 该 如 何 定义 呢 ? 

通常 (尽管 这 其 中 存在 一 些 简化 )， 模 型 M 的 复杂 性 与 所 考虑 的 参数 个 数 d 相关 的 。 在 
接 下 来 的 讨论 中 我 们 采用 以 下 符号 。 设 有 K 种 不 同 的 模型 结构 M,，…，M:， 我 们 要 从 中 选 
择 一 个 〈 理 想 状 态 是 其 中 有 一 个 可 以 最 好 地 预测 将 来 数据 )。 模 型 M 有 di 个 参数 。 我 们 假 
定 对 于 每 一 种 模型 结构 M，1 入 上 委 开 ， 我 们 已 选择 出 最 佳 拟 合 的 参数 & (这 些 参 数 使 模型 
最 大 程度 地 拟 合 数据 );， 也 就 是 说 ， 我 们 已 经 求 出 了 这 K 个 模型 结构 参数 的 点 估计 ， 现 在 只 
是 要 从 这 些 模型 中 选取 一 个 。 

著名 的 Akaike 信息 标准 《简称 AIC) 是 这 样 定义 的 ; 


Sac (Mi)=2S1(@:Mi)+2de, VSRSK (7.8) 
其 中 8 是 负 对 数 似 然 ， 与 公式 7.5 的 定义 相同 ， 惩 罚 项 为 2d.。 可 以 使 用 极限 理论 推导 出 这 


个 公式 。 
另 一 种 方案 是 基于 贝 叶 斯 理论 的 , 不 过 也 考虑 了 样本 大 小 n 这 就 是 贝 叶 斯 信息 标准 ( 简 
称 BIC)， 它 被 定义 为 : 


Spic (Mg) =2S1 6.; Mi)+ 4d; logn (7.9) 


其 中 8 也 是 公式 7.5 中 的 负 对 数 似 然 。 值 得 注意 的 是 附加 惩罚 项 ddogn 的 作用 。 对 于 固定 的 
n 值 ， 惩 罚 项 会 随 着 参数 数量 di 线性 增长 ， 这 是 非常 直观 的 。 对 于 固定 的 参数 数量 do EH 
项 会 与 logn 成 比例 增长 。 注意 相对 n 的 对 数 增长 可 能 会 被 5 中 相对 的 线性 增长 所 掩盖 CAL 
为 它 是 项 的 总 和 )。 所 以 ， 随 着 n RUA, EBON dA, RTS, (Gn BARA) 
会 支配 惩罚 项 〈 与 n 呈 对 数 关 系 )。 直 观 地 讲 ， 对 于 数据 点 数量 n 非常 大 的 情况 ， 我 们 可 以 
“相信 ”训练 数据 中 的 误差 ， 这 时 惩罚 项 就 不 太 重要 了 。 反 过 来 说 ， 对 数据 点 数量 ”很 小 的 
情况 ， 惩 罚 项 ddogn 会 在 模型 选择 中 产生 较 大 的 影响 。 

还 有 很 多 其 他 的 惩罚 性 评分 函数 ， 它 们 的 相 加 项 和 上 面 介绍 的 相似 (也 就 是 一 个 基于 误 
差 的 项 加 一 个 惩罚 项 )。 比 如 用 于 回归 问题 的 调整 了 的 及 和 OC, 评分 函数 、 最 短 描述 长 度 法 
(MDL) CE 58 4 章 介绍 的 MAP 评分 函数 关系 非常 密切 ) 和 Vapnik 的 结构 风险 最 小 化 方 
法 (structural risk minimization, SRM). 

这 些 惩罚 性 函数 中 的 一 部 分 可 以 用 比较 基本 的 理论 正式 推导 出 来 。 但 是 ， 实 际 上 这 些 函 
数 经 常 是 在 比 理论 推导 所 作假 定 要 宽松 的 多 的 条 件 下 使 用 的 。 尽 管 如 此 ， 因为 它们 容易 计算 ， 
而 且 对 于 给 定 的 特定 数据 集 和 数据 挖掘 任务 ， 它们 至 少 会 给 出 一 种 通用 概念 来 表征 模型 的 合 
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适 复杂 度 ， 所 以 在 实践 中 这 些 函 数 经 常 是 非常 方便 的 。 
另 一 种 不 同 的 途径 就 是 使 用 第 4 章 介绍 的 贝 叶 斯 框架 。 我 们 可 以 直接 计算 每 个 模型 对 于 
给 定数 据 的 后 验 概率 ， 然 后 选择 一 个 具有 最 大 后 验 概率 的 ; 也 就 是 ， 
p(M 1D)~ p(DIM,)p(M;) 


= | (0.6, |M,,)P(M,)d0, (7.10) 


其 中 的 积分 代表 在 参数 空间 中 计算 数据 似 然 的 期 望 〈 又 被 称 为 边际 似 然 〈marginal 
likelihood))， 相 对 于 参数 空间 中 的 先 验 p (0,1M); p MO 项 是 每 个 模型 的 先 验 概率 。 显 
然 ， 这 与 “点 估计 ”方法 是 大 不 相同 的 一 一 贝 叶 斯 哲学 就 是 要 充分 考虑 不 确定 性 ， 因 而 要 对 
参数 求 平均 〈 因 为 不 能 确定 它们 的 确切 值 )， 而 不 是 “ 拣 ” 一 个 像 久 这 样 的 点 估计 。 注 意 这 
种 贝 叶 斯 方法 隐 含 的 惩罚 了 复杂 性 ， 因 为 参数 空间 的 维度 越 高 〈 模 型 越 复杂 ) 就 意味 着 p 
COMO 中 的 概率 质量 分 布 的 越 稀薄 (相对 于 更 简单 的 模型 )。 

当然 ， 在 实践 中 对 于 许多 参数 空间 和 感 兴趣 的 模型 来 说 ， 直 接 积分 经 常 是 难以 驾驭 的 ， 
因此 经 常 使 用 Monte Carlo 抽样 技术 。 进 一 步 说 ， 对 于 大 的 数据 集 ，P(DI6) 函 数 实际 上 在 某 
个 单一 值 6 附近 是 非常 “尖锐 的 ”( 回 忆 第 四 章 中 最 大 似 然 估计 的 例子 )， 因 此 在 这 种 情况 
下 我 们 可 以 用 尖峰 值 再 加 上 它 附近 部 分 (例如 ，p(DIO)p(9) 的 后 验 最 频 值 附近 的 泰勒 级 数 展 
开 式 一 一 可 以 证 明 这 样 做 就 是 前 面 BIC 方法 的 近似 ) 的 值 给 出 对 上 述 贝 叶 斯 表达 式 的 合理 
近似 。 
7.4.4 ”使 用 外 部 验证 的 评分 函数 


有 时 使 用 一 种 不 同 的 策略 来 选取 模型 ， 该 策略 并 不 是 以 增加 逢 罚 项 为 基础 的 ， 而 是 建立 
在 对 模型 的 外 部 验证 基础 上 的 。 它 的 基本 思想 就 是 将 数据 《随机 地 ) 分 为 两 个 互 不 重合 的 部 
分 : “设计 ” 部 分 D, 和 “验证 ”部 分 D,。 设 计 部 分 用 来 构建 模型 和 估计 参数 。 然 后 使 用 验 
证 部 分 重新 计算 评分 函数 。 最 后 用 这 些 验 证 分 数 来 选择 模型 (或 模式 )。 这 里 很 重要 的 一 点 
是 ， 对 特定 模型 分 数 的 估计 《比如 表示 为 SMO) 本 身 就 是 一 个 随机 变量 ， 它 的 随机 性 既 
来 自用 来 训练 〈 设 计 ) 模型 的 数据 集 又 来 自 验证 模型 的 数据 集 。 举 例 来 说 ， 如 果 分 数 是 目标 
值 和 模型 预测 值 之 间 的 某 一 误差 函数 〈 比 如 误差 平方 和 )， 那 么 理想 上 说 我 们 应 为 每 一 个 所 
考虑 的 模型 对 将 来 数据 的 分 数值 建立 一 个 无 偏 估计 (unbiased estimate)。 在 验证 环境 中 ， 因 
为 两 个 数据 集 是 互相 独立 的 并 随机 选取 的 ， 所 以 对 于 一 个 给 定 模型 验证 分 数 提供 了 对 模型 在 
新 数据 点 (“样本 之 外 的 ”) 上 的 分 数值 的 无 偏 估计 。 也 就 是 说 ， 设 计 中 不 可 避免 的 估计 偏差 
在 独立 的 验证 估计 中 不 会 出 现 。 由 此 〈 以 及 期 望 的 线性 特征 ) 可 以 得 出 ， 两 个 模型 对 于 验证 
数据 集 的 分 数 差 异 会 有 利于 更 好 的 模型 。 因 此 ， 我 们 可 以 使 用 验证 分 数 来 选择 模型 。 注 意 在 
前 面 我 们 已 经 讨论 了 参数 6 ICT (第 4 章 )、 预 测 4, 的 无 偏 估计 《〈 本 章 前 面 )， 现 在 
我 们 又 介绍 了 评分 函数 8 的 无 偏 估计 。 在 这 三 种 情况 中 都 使 用 了 偏差 -方差 原则 ， 而 且 实际 
上 这 三 者 是 相互 联系 的 (例如 参数 估计 的 精度 会 影响 预测 的 精度 ) 不 过 ， 重 要 的 是 理解 
它们 之 间 的 差异 。 

目前 ， 验 证 的 一 般 思 想 已 经 被 扩展 为 交叉 验证 。 也 就 是 把 分 成 两 个 独立 集合 的 操作 随机 
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重复 很 多 次 ， 每 次 根据 数据 的 设计 部 分 估计 出 符合 给 定形 式 的 新 模型 ， 并 根据 验证 部 分 得 到 
对 每 个 模型 的 样本 外 性 能 的 无 偏 估计 。 然 后 对 这 些 无 偏 估计 进行 平均 得 到 总 的 估计 。 我 们 在 
第 5 章 中 讨论 如 何 选 择 CART 递归 划分 模型 时 介绍 了 这 种 交叉 验证 的 用 法 。 交 叉 验证 在 实践 
中 非常 流行 ， 这 主要 是 因为 它 很 简单 并 且 和 鲁 棒 性 很 好 《〈 从 它 仅 依赖 于 相当 少 的 假定 这 个 意义 
上 来 说 )。 但 是 ， 如 果 重 复 分 割 m 次 ， 那 么 它 确实 也 要 付出 相当 代价 的 ， 它 的 复杂 度 与 只 使 
用 单一 验证 集 的 方法 相 比 是 后 者 的 m 倍 。( 在 一 些 特例 中 有 例外 。 例 如 ， 在 线性 判别 分 析 中 
使 用 了 一 种 交叉 验证 方法 的 特例 ， 它 仅 留 下 一 个 数据 点 (leaving-one-out〉 作 为 验证 数据 集 ， 
它 的 计算 复杂 度 和 基本 的 模型 构建 算法 是 一 样 的 。) 

对 于 很 小 的 数据 集 ， 选 择 验 证 子 集 D, 的 过 程 可 能 导致 在 不 同 数据 集 问 有 显著 的 差异 ， 
因此 在 实践 中 必须 对 交叉 验证 评分 的 方差 进行 监控 ， 检 查 这 种 差异 是 不 是 不 合理 的 过 高 。 最 
后 ， 在 使 用 交叉 验证 方法 对 可 能 有 不 同 参数 但 却 具 有 相同 复杂 度 的 模型 进行 平均 时 需要 特别 
注意 。 也 就 是 必须 保证 我 们 每 次 确实 是 对 同一 个 基本 模型 进行 平均 。 举 例 来 说 ， 如 果 对 于 不 
同 的 训练 数据 子 集 ， 我 们 所 使 用 的 拟 合 过 程 可 能 陷入 参数 空间 中 的 不 同 局 部 最 大 值 ， 那 么 对 
这 些 模型 的 验证 分 数 进行 平均 的 意义 就 不 明确 了 。 

正如 前 面 所 指出 的 ， 根 据 这 一 个 过 程 得 到 的 对 一 个 给 定 模型 的 性 能 估计 是 无 偏 的 。 这 就 
是 这 种 方法 在 性 能 评估 中 应 用 如 此 广泛 并 不 断 发 展 〈 参 见 补充 读物 ) 的 原因 。 但 是 ， 也 要 考 
虑 一 些 注意 事项 。 如 果 接 下 来 又 使 用 这 一 验证 尺度 来 选择 模型 例如， 在 不 同 复杂 度 的 模型 
中 作出 选择 )， 那 么 最 终 选 择 模型 的 验证 分 数 就 是 这 个 模型 性 能 的 有 偏 估 计 了 。 为 了 说 明 这 
一 点 ， 想 像 某 一 模型 仅 由 于 偶然 性 在 验证 集 上 表现 得 异常 好 。 也 就 是 说 ， 这 个 模型 恰好 遇 到 
了 适合 它 的 验证 集 ， 因 此 它 表现 很 好 。 接 下 来 这 个 模型 很 可 能 被 选 为 “最 佳 ”模型 。 但 显然 
这 个 模型 对 样本 外 数据 集 不 会 表现 这 么 好 。 这 告诉 我 们 ， 在 实践 中 如 果 需 要 对 一 个 模型 的 将 
来 可 能 性 能 进行 评价 ,那么 必须 把 这 种 评价 建立 在 第 三 个 数据 集 上 ,也 就 是 检验 集 (test set), 
我 们 会 在 下 一 节 中 详细 介绍 检验 集 。 





7.5 “模型 和 模式 的 评价 





一 旦 我 们 基于 评分 函数 选择 了 一 种 模型 或 模式 ,那么 我 们 经 常 希望 知道 (在 预测 情况 下 ) 
此 模型 或 模式 对 于 新 的 未 见 过 数据 会 表现 如 何 。 例 如 ， 使 用 给 定 训练 数据 建立 的 预测 分 类 模 
型 对 于 新 的 未 见 过 的 数据 会 有 怎样 的 误差 率 ? 在 上 一 节 讨论 选择 模型 的 验证 集 方法 时 我 们 已 
经 提 到 了 这 个 问题 。 

值得 注意 的 是 ， 如 果 再 使 用 那些 用 来 选择 模型 或 用 来 估计 参数 的 相同 数据 来 进行 性 能 评 
价 ， 那 么 这 种 评价 一 定 是 偏向 乐观 的 。 因 为 这 个 模型 就 是 根据 在 这 个 数据 集 上 的 性 能 被 选择 
出 的 。 也 就 是 说 ， 这 种 表面 的 (apparent) 或 者 说 重新 代入 Cresubstitution) 的 性 能 评价 必然 
是 偏向 乐观 的 〈 因 为 这 种 评价 是 建立 在 重复 使 用 训练 数据 集 基 础 上 的 )。 

如 果 我 们 只 考虑 一 种 模型 结构 ， 而 且 不 使 用 验证 方法 选择 模型 ， 那 么 我 们 可 使 用 二 次 抽 
样 技术 (比如 验证 或 交叉 验证 ) 将 数据 分 为 训练 集 和 检验 集 来 得 到 对 模型 未 来 性 能 的 无 偏 估 
计 。 也 可 以 重复 多 次 ， 并 对 结果 进行 平均 。 极 端 来 说 ， 检 验 集 可 以 仅 包括 一 个 点 ， 从 而 使 整 
个 过 程 重复 N 次 ， 然 后 对 N 次 的 单一 分 数 进行 平均 得 到 最 终 估 计 。 这 种 留 下 部 分 数据 作为 
独立 检验 集 的 原理 已 经 被 不 断 提 炼 ， 并 且 开 发 出 了 很 多 有 很 高 技术 性 和 复杂 度 的 方法 ， 特 别 
值得 注意 的 除了 有 leaving-one-out 交叉 验证 法 外 ,还 有 折 驹 法 (jackknife〉 和 自 展 (bootstrap) 
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法 《〈 这 些 方法 是 不 同 的 ， 尽 管 彼此 有 关 而 且 有 时 被 混淆 )。 后 面 的 补充 读物 中 介绍 了 一 些 出 
版 物 ， 其 中 包含 更 多 的 详细 内 容 。 
以 上 讨论 的 关键 一 点 就 是 ， 如 果 要 得 到 对 模型 未 来 可 能 性 能 的 无 偏 估计 ， 那 么 就 必须 使 
用 与 构建 和 选择 模型 所 用 数据 集 不 相关 的 独立 数据 集 来 评估 它 的 性 能 。 这 一 规则 也 适用 于 使 
用 了 验证 数据 集 的 情况 。 举 例 来 说 ， 假 定 我 们 通过 将 数据 分 为 两 个 子 集 来 从 K 个 模型 中 选 
择 , 并 且 在 第 一 个 子 集 上 拟 合 参数 ,使 用 基于 第 二 个 子 集 (验证 子 集 ) 的 分 数 来 选择 单一 “最 
佳 ” 模 型 。 那 么 ， 因 为 我 们 将 根据 在 这 个 对 验证 数据 集 上 的 表现 来 选择 “最 佳 ” 模 型 ， 所 以 
拟 合 了 这 个 验证 数据 集 特异 性 的 模型 会 被 选 出 。 本 质 上 ， 这 相当 于 确认 数据 集 已 经 在 设计 过 
程 中 使 用 过 ， 因 此 根据 这 个 验证 数据 集 衡量 出 的 性 能 将 是 过 于 乐观 的 。 从 中 选择 最 终 模 型 的 ”[229| 
模型 集合 越 大 ， 这 一 问题 就 越 严重 。 


例 7.1 可 用 通过 一 个 假想 的 二 分 类 分 类 问题 来 说 明 为 什么 模型 在 验证 数据 上 
会 有 过 于 乐观 的 性 能 。 设 想 我 们 使 用 100 个 数据 点 的 验证 数据 集 来 从 K 个 模型 中 
选择 最 佳 的 模型 。 我 们 已 经 使 这 两 个 类 具有 同样 的 先 验 概率 ， 也 就 是 都 为 0.5, 6) 
时 我 们 设计 了 一 种 极端 的 情况 ， 特 意 使 模型 中 的 所 有 “预测 ”变量 根本 没有 任何 预 
测 能 力 ， 也 就 是 说 ， 所 有 的 输入 变量 都 独立 于 类 变量 了 。 这 就 意味 着 实际 上 每 个 模 
型 所 作出 的 预测 都 是 完全 随机 的 ， 这 样 做 的 目的 是 使 所 有 模型 对 于 新 的 未 见 过 数据 
的 总 体 精 度 都 是 0.5 (尽管 我 们 并 不 知道 这 个 事实 )。 图 7-1 显示 了 按 这 种 设计 模拟 
出 的 交叉 验证 精度 ， 在 这 个 过 程 中 我 们 把 模型 数目 天 从 1 增加 到 100。 当 我 们 从 数 
量 很 少 (小 于 10) 的 模型 中 选择 时 ， 被 最 住 模 型 正确 分 类 的 验证 集 数据 点 数 所 占 
比例 非常 接近 0.5， 然 而 当 K=15 时 使 用 验证 集 选择 的 “最 好 ”模型 正确 分 类 验证 
集 数 据点 数 的 比例 值 为 0.55， 当 k=30 时 这 个 比例 值 为 0.61。 
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0 4 如 60 70 8 90 100 
候选 的 模型 数量 
图 7-1 根据 验证 数据 集 选 择 出 的 最 佳 模型 的 分 类 精度 ， 模 轴 为 候选 的 
模型 数量 K，1 入 上 入 100。 每 个 模型 所 做 出 的 预测 都 是 随机 的 
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从 这 个 例子 可 以 得 出 一 个 结论 : 如 果 使 用 验证 集 来 选择 模型 ， 那 么 就 不 能 再 使 用 验证 集 
来 估计 模型 对 未 来 可 能 数据 的 性 能 。 原 因 是 : 根据 验证 集 作 出 的 对 模型 在 其 他 未 见 过 数据 上 
的 性 能 估计 是 有 偏 的 。 正 如 上 面 所 叙述 的 ， 既 然 在 选择 模型 时 已 经 使 用 了 验证 集 ， 那 么 它 就 
变 成 了 设计 过 程 中 的 一 部 分 。 这 就 是 说 ， 要 获得 对 未 来 性 能 的 无 偏 估计 ， 我 们 就 必须 使 用 没 
有 被 以 任何 方式 用 于 模型 选择 或 模型 估计 的 其 他 数据 集 (一 个 预先 留 出 的 (“hold-out*〉 数 
据 集 )。 对 于 非常 庞大 的 数据 集 来 说 ， 这 通常 是 不 成 问题 的 ， 因 为 可 用 的 数据 是 现成 的 ;但 
是 对 于 较 小 的 数据 集合 便 可 能 有 问题 了 ， 因 为 这 样 会 明显 减少 用 于 训练 的 数据 。 
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我 们 在 其 他 地 方 曾经 指出 “正确 ”模型 的 概念 是 经 不 起 推荐 的 。 相 反 ， 所 有 模型 都 是 对 
现实 情况 的 一 种 相似 ， 我 们 的 目的 就 是 找到 一 个 与 当前 用 途 足 够 接近 的 模型 。 从 这 一 角度 来 
看 ， 如 果 模 型 没有 随 着 它 所 针对 数据 的 变化 而 过 于 剧烈 变化 ， 那 么 这 个 模型 就 是 稳妥 的 
(reassuring )。 因 此 ， 如 果 某 个 数据 点 值 的 轻微 变化 导致 模型 的 参数 估计 和 预测 值 发 生 了 根 
本 变化 ， 那 么 我 们 使 用 这 样 的 模型 就 要 谨慎 了 。 换 名 话说， 我们 希望 我 们 的 模型 对 数据 的 微 
小 变化 不 敏感 。 同 理 ， 模 型 和 评分 函数 可 能 是 基于 某 些 假定 的 〈 比 如 某 种 潜在 的 概率 分 布 )。 
如 果 轻 微 的 放宽 这 些 假定 ， 拟 合 后 的 模型 和 它 的 参数 以 及 模型 的 预测 都 没有 剧烈 的 变化 ， 那 
么 这 些 假定 就 是 稳妥 的 。 

目前 已 经 开发 出 了 很 多 针对 这 些 目 标的 评分 函数 。 举 例 来 说 ， 在 一 种 修整 (trimmed) 
均值 中 ， 先 抛弃 很 小 比例 的 极端 数据 点 ， 然 后 再 在 剩 下 的 数据 点 上 计算 平均 值 。 这 样 孤立 点 
的 值 便 不 会 影响 估计 结果 了 。 随 着 抛弃 数据 点 的 比例 越 来 越 高 ， 便 产生 了 一 种 极端 情况 〈 假 
定 是 一 元 分 布 ， 并 且 从 每 个 末端 抛弃 的 数据 点 数 是 相等 的 )， 这 就 是 中 值 一 一 被 公认 为 对 于 
孤立 点 的 敏感 程度 要 比 算术 平均 值 低 。 另 外 一 个 例子 是 Winsorized 平均 值 ， 该 方法 先 使 具有 
最 极端 值 的 数据 点 取 次 极端 数据 点 的 值 ， 然 后 再 计算 正常 均值 。 

尽管 可 以 把 这 些 修 正 想像 为 评分 函数 的 鲁 棒 形 式 ， 但 有 时 从 用 于 计算 它们 的 算法 角度 来 
描述 它们 《〈 以 及 思考 它们 》 可 能 更 容易 。 
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数 ) 作为 树 分 类 器 的 评分 函数 。Domingos (1999) 介绍 了 一 种 灵活 的 方法 把 某 些 作用 于 0-1 
分 类 代价 假定 的 分 类 算法 转换 为 可 以 使 用 任何 分 类 代价 矩阵 的 更 通用 算法 。 

Devroye (1984) 讨论 了 使 用 L1 距离 尺度 作为 密度 估计 问题 的 评分 函数 ， 击 Silverman 
(1986) 在 同一 背景 下 介绍 了 更 传统 的 误差 平方 〈(L2) 评分 函数 。 

Geman, Bienenstock and Doursat (1992) 的 论文 在 通用 的 学 习 背 景 下 论述 了 偏差 和 方差 
的 关系 。Friedman (1997) 提出 了 可 用 于 分 类 问题 的 偏差 -方差 分 解 方 法 ， 这 种 方法 与 传统 
的 误差 平方 偏差 -方差 相 比 有 很 多 根本 不 同 的 重要 属性 。 
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Linhart and Zucchini (1986) 概括 了 各 种 统计 模型 选择 技术 。Ripley (1996) 的 第 2 章 全 
面 地 分 析 了 用 于 分 类 和 回归 的 模型 选择 评分 函数 。Stone (1974) 最 先 讨 论 了 交叉 验证 ，Hjort 
(1993) 列举 了 关于 交叉 验证 的 许多 最 新 观点 和 用 于 模型 选择 的 有 关 采 样 技术 。 统 计 理 论 的 
书籍 中 (如 Lindsey, 1996) 通常 都 包括 对 逢 罚 性 模型 选择 的 讨论 ， 包 括 像 AIC 和 BIC 这 样 
的 尺度 。Akaike (1973) 介绍 了 AIC A, Schwarz (1978) 中 包含 了 对 BIC 的 最 早 论 述 ， 
Burnham and Anderson (1998) 详细 论述 关于 BIC 的 最 新 情况 和 相关 的 方法 。Vapnik (1995) 
详细 介绍 了 模型 选择 的 结构 风险 最 小 化 (SRM) 方法 ，Rissanen (1987) 详细 地 讨论 了 随机 
复杂 度 、 最 短 描述 长 度 (MDL) 和 相关 概念 。Lehmann (1986) 在 假设 检验 的 框架 下 介绍 了 
比较 两 种 模型 的 传统 统计 方法 。 

Bernardo 和 Smith (1994) 详细 地 描述 了 贝 叶 斯 理论 在 评分 函数 和 模型 选择 方面 的 应 用 。 
(也 可 参见 Dawid (1984) 和 Kass and Raftery (1995)). 

Ripley (1996, 38 2 章 ) 和 Hand (1997) 详细 地 讨论 了 对 分 类 和 回归 模型 的 性 能 评价 。 
Salzberg (1997) 和 Dietterich (1998) 讨论 了 如 何 评估 多 个 分 类 模型 和 算法 性 能 差异 的 统计 
显著 性 。 

Huber (1980) 是 关于 和 鲁 棒 方 法 的 一 本 重要 著作 。 
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第 8 章 搜索 和 优化 方法 


8.1 简介 


在 第 6 章 中 我 们 看 到 了 可 以 用 很 多 种 模型 结构 (model structure) 或 表示 (representation) 
来 结构 化 的 表达 知识 。 紧 接着 ， 在 第 7 章 中 我 们 讨论 了 依据 它们 拟 合 观察 数据 的 程度 来 评价 
这 些 结构 〈 以 模型 和 模式 的 形式 ) 的 方法 。 这 一 章 我 们 将 集中 讨论 数据 挖掘 算法 中 用 来 拟 合 
模型 或 模式 的 计算 方法 (computational method); 也 就 是 说 ， 在 现 有 数据 和 评分 函数 的 引导 
下 搜索 并 优化 参数 和 结构 的 过 程 。 在 数据 挖掘 、 统 计 和 机 器 学 习 算 法 的 文献 中 经 常 低估 了 高 
效 搜索 和 优化 的 重要 性 ， 但 是 在 实践 中 这 些 方法 对 一 个 应 用 成 功 与 否 起 着 关键 的 作用 。 

首先 回忆 一 下 第 7 章 中 的 评分 函数 (score function)， 通 过 评分 函数 我 们 可 以 用 数字 表 
示 出 我 们 对 一 个 模型 或 模式 胜 过 其 他 的 青睐 。 例 如 ， 如 果 我 们 使 用 误差 平方 和 评分 函数 Ssss， 
那么 我 们 将 优先 选择 具有 较 低 Ssss 的 模型 ， 因 为 这 个 评分 函数 衡量 了 一 个 模型 的 误差 (至 少 
在 训练 数据 上 是 这 样 的 )。 如 果 我 们 的 算法 是 在 搜索 具有 不 同 表示 力 (和 不 同 复杂 度 ) 的 多 
个 模型 ， 那 么 我 们 可 能 优先 选用 像 Spc 这 样 带 有 惩罚 项 的 评分 函数 SILA 7 章 的 讨论 )， 
目的 是 通过 加 一 个 与 模型 中 参数 个 数 相 联系 的 惩罚 项 来 惩罚 更 复杂 的 模型 。 

不 论 选 择 的 评分 函数 S 的 具体 函数 形式 如 何 ， 一 旦 确定 了 ， 那 么 我 们 的 目标 就 是 使 它 最 
优 .。( 在 这 一 章 中 ， 我 们 假定 如 果 不 特别 指出 ， 那 么 就 是 希望 使 评分 函数 最 小 化 ， 而 不 是 使 
它 最 大 化 )。 于 是 ， 我 们 设 5S (OID, M)= S(O, +, 61D, M 为 评分 函数 。 它 是 关于 dE 
参数 向 量 6 和 模型 结构 M (或 模式 结构 p) 的 标量 函数 ， 而 且 是 以 特定 的 观察 数据 集 D 为 条 
件 的 。 

本 章 分 析 一 些 基本 的 原理 ， 用 来 寻找 使 一 个 一 般 的 评分 函数 $ 最 小 化 的 参数 值 。 从 实 
践 的 角度 来 看 区 分 以 下 两 种 情况 是 有 用 的 ; 一 种 情况 是 讨论 的 参数 仅 取 离散 值 〈 离 散 参 
数 )， 另 一 种 情况 是 参数 可 以 取 连 续 的 数值 (连续 参数 )， 但 这 两 种 情况 并 没有 顶层 概念 上 
的 差异 。 

离散 参数 的 例子 包括 那些 索引 不 同 模型 类 别 的 参数 (比如 1 可 能 对 应 树 ;2 对 应 神经 网 
络 ; 3 对 应 多 项 式 函 数 等 等 ) 和 仅 取 整数 值 的 参数 (例如 模型 中 包含 的 变量 数 )。 第 二 个 例 
子 中 的 变量 数 指出 了 问题 的 规模 。 例 如 ， 如 果 我 们 使 用 基于 从 可 能 的 p 个 变量 中 选取 一 个 子 
集 的 回归 模型 。 那 么 就 存在 K=2? 个 这 样 的 子 集 ， 即 使 是 对 于 p 为 中 等 大 小 的 情况 ， 这 个 值 
也 已 经 很 大 。 类 似 地 ， 在 寻找 概率 规则 的 模式 问题 中 ， 我 们 可 能 从 p 个 二 进 制 变量 中 选取 某 
个 子 集 并 用 这 些 变量 的 合 取 作为 规则 的 左 侧 〔 右 侧 是 固定 的 )， 然 后 再 分 析 这 些 规则 。 那 么 
就 有 J=3? 个 可 能 的 合 取 规则 (每 个 变量 取 值 0、1 或 根本 不 在 合 取 中 )。 这 也 可 能 是 个 天 文 
数字 。 显 然 ， 这 些 例子 都 是 组 合 优化 (combinatorial optimization) 问题 ， 对 可 能 解 的 集合 进 
行 搜索 ， 目 的 是 发 现 一 个 具有 最 佳 得 分 的 解 。 

连续 参数 的 例子 包括 代表 分 布 均值 的 参数 ， 或 者 代表 聚 类 集合 中 心 的 参数 向 量 。 连 续 
的 参数 空间 使 强大 的 微分 工具 有 了 用 武之 地 。 在 某 些 很 特别 但 却 非常 重要 的 情况 下 ， 可 以 
得 到 闭合 形式 的 解 。 然 而 通常 这 是 不 可 能 的 ， 因 此 需要 人 迁 代 的 方法 。 显 然 ， 参 数 向 量 8 为 
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一 维 的 情况 是 非常 重要 的 ， 所 以 我 们 将 首先 分 析 这 种 情况 。 这 可 以 让 我 们 看 到 多 维 情况 的 
内 幕 ， 不 过 我 们 会 发 现 这 种 情况 中 也 会 有 一 些 难 以 处 理 的 问题 。 无 论 是 一 维 还 是 多 维 的 情 
况 都 会 因为 局 部 最 小 值 的 存在 而 变 得 很 复杂 ， 对 应 于 局 部 最 小 值 的 参数 向 量 虽 然 与 其 他 相 
似 向 量 相 比 有 较 小 的 目标 值 ， 但 并 不 是 真正 的 最 小 值 。 后 面 我 们 将 探索 克服 这 些 问 题 的 方 
法 。 

很 多 时 候 ， 对 可 能 模型 结构 的 集合 进行 搜索 与 优化 给 定 模型 的 参数 这 两 个 问题 是 相互 关 
联 的 ;也 就 是 说 ， 既 然 任 何 单一 的 模型 或 模式 结构 通常 都 具有 未 知 的 参数 ， 那 么 当 寻 找 最 佳 
的 模型 或 模式 结构 时 ， 我 们 也 必须 在 搜索 中 为 每 一 个 考虑 的 结构 寻找 最 佳 的 参数 。 例 如 ， 考 
上 碟 这 样 一 系列 模型 ， 在 这 些 模 型 中 我 们 要 通过 三 个 预测 变量 x,、x, 和 六 的 某 个 子 集 的 简单 线 
性 组 合 来 预测 了 了 。 其 中 的 一 个 模型 可 能 是 了 (i) = axli) + bx, (i) + cxs(i)， 其 他 的 模型 可 能 具有 
同样 的 形式 ， 但 是 仅 包 含 两 个 或 一 个 预测 变量 。 如 上 面 所 指出 的 ， 我 们 的 搜索 必须 遍历 变量 
x 的 所 有 可 能 子 集 ， 但 对 每 一 个 子 集 ， 还 必须 寻找 最 小 化 评分 函数 的 参数 (对 于 包含 所 有 三 
个 变量 的 情况 是 a、b 和 c)。 

这 个 描述 提示 我 们 ， 对 于 上 面 的 问题 ， 一 种 可 能 的 算法 设计 是 在 使 评分 函数 对 于 模型 结 
构 最 小 化 的 循环 中 嵌 套 一 个 使 评分 函数 对 于 参数 估计 最 小 化 的 循环 。 这 是 经 常 使 用 的 一 种 做 
法 ， 因 为 这 样 做 很 简单 ， 不 过 从 计算 的 观点 来 看 可 能 不 总 是 最 高 效 的 。 

有 必要 尽早 指出 在 一 些 数据 挖掘 算法 中 ， 算 法 的 焦点 是 根据 选取 的 评分 函数 在 参数 空间 中 寻 
找 模型 、 模 式 或 区 域 的 集合 ， 而 不 仅仅 是 单一 的 最 佳 模型 、 模 式 或 参数 向 量 。 例 如 ， 在 贝 叶 斯 平 
均 技 术 中 和 在 搜索 模式 集合 的 应 用 中 都 是 如 此 。 通 常 〈 尽 管 存在 例外 )， 搜 索 和 优化 方法 的 一 般 原 
理 是 针对 单一 模型 、 模 式 或 参数 的 情况 表达 的 ， 因 此 为 了 表示 和 说 明 的 简单 我 们 将 主要 集中 在 寻 
找 单 一 最 佳 模型 、 模 式 和 参数 向 量 的 问题 。 

有 时 ， 模 型 空间 或 被 搜索 的 参数 空间 中 根本 不 存在 连续 的 概念 ， 第 2 节 集 中 讨论 针对 这 
种 情况 的 一 般 搜索 方法 。 具 体内 容 包括 : 通常 难以 穷 举 分 析 所 有 解 的 组 合 问题 ; 搜索 问题 的 
状态 空间 表示 ; 特殊 搜索 策略 ， 以 及 像 分 支 定 界 这 样 的 方法 ， 这 些 方法 利用 参数 空间 或 评分 
函数 的 优势 来 减少 必须 明确 分 析 的 参数 向 量 个 数 。 第 3 节 转 向 对 连续 参数 空间 优化 方法 的 讨 
论 ， 包 括 单 变量 和 多 变量 的 情况 ， 以 及 由 于 限制 参数 的 允许 值 范围 所 导致 的 复杂 性 。 第 4 节 
描述 了 可 以 克服 残缺 值 问 题 的 各 类 方法 。 在 很 多 数据 挖 据 问 题 中 ， 数 据 集 非常 庞大 ， 所 以 必 
须 避 免 多 次 遍历 数据 。 第 5 节 介 绍 了 针对 这 一 目标 的 算法 。 因 为 很 多 应 用 都 涉及 评分 函数 具 
有 多 个 最 小 值 (或 最 大 值 ) 的 问题 ， 所 以 已 经 开发 出 了 随机 搜索 方法 以 提高 发 现 全 局 最 优 值 
的 机 会 。 在 第 6 节 中 我 们 将 描述 一 些 这 样 的 方法 。 





8.2 ”搜索 模型 或 模式 


8.2.1 搜索 背景 


这 一 小 节 讨 论 一 些 有 关 搜 索 的 一 般 问题 。 在 很 多 实际 的 数据 挖掘 应 用 中 ， 我 们 事先 不 知 
道 什么 样 的 模型 结构 M 或 模式 结构 p 最 适合 解决 我 们 的 任务 ， 所 以 我 们 要 对 一 族 (family) 
模型 结构 M ={M1，…，Mx} 或 模式 结构 P = { 21，…，p 省 进行 搜索 。 我 们 前 面 曾 给 出 了 两 
个 这 样 的 例子 ， 在 线性 回归 问题 中 寻找 最 佳 的 变量 子 集 ， 寻 找 合 取 规则 的 左 侧 该 包含 的 最 佳 
条 件 集 合 。 这 两 个 问题 都 可 以 被 看 作 是 “最 佳 子 集 ”问题 ， 都 具有 这 样 的 一 般 特 征 : 从 p 个 
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“分 量 (component)”( 这 里 是 p 个 变量 ) 中 可 以 组 合 产生 出 数量 非常 庞大 的 解 方案 。 寻 找 
“最 佳 子 集 ”是 数据 挖 握 中 的 一 个 普遍 问题 。 例 如 ， 对 于 一 般 的 预测 分 类 模型 (例如 最 近邻 、 
朴素 贝 叶 斯 ， 或 神经 网 络 分 类 器 )， 我 们 都 需要 寻找 对 于 验证 数据 集 产生 最 低 误 分 类 率 的 变 
量子 集 。 

一 个 有 关 的 模型 搜索 问题 是 从 p 个 变量 的 “ 池 ” 中 发 现 最 佳 的 树 结构 分 类 器 ， 我 们 在 第 
5 章 中 曾经 用 到 这 个 例子 。 这 个 问题 具有 更 显著 的 组 合 特征 。 下 面 考虑 -下 对 所 有 可 能 的 二 
又 树 〈 也 就 是 树 的 内 部 节点 有 两 个 子 节点 ) 进行 搜索 的 问题 。 假 定 考 虑 的 所 有 树 的 深度 为 p， 
并 且 从 根 节点 到 任何 叶子 节点 的 路 径 上 都 有 p 个 变量 。 此 外 ， 假 定 任何 变量 都 可 以 出 现在 树 
的 任 一 节点 上 ， 记 得 分 类 树 的 每 一 节点 都 包含 一 个 单 变量 测试 ， 测 试 的 结果 定义 了 从 这 
个 节点 应 该 取 的 分 支 。 对 于 这 一 族 树 存在 p2 种 不 同 的 树 结构 一 一 也 就 是 说 ， 有 p> 个 不 同 
的 分 类 树 ， 它 们 至 少 有 一 个 内 部 节点 彼此 不 同 。 实 践 中 ， 可 能 的 树 结构 数量 事实 上 还 会 更 大 ， 
因为 还 要 考虑 全 深 (full-depth〉 树 的 不 同 子 树 。 彻 底 无 遗漏 地 搜索 所 有 可 能 树 显 然 是 不 可 行 
的 





我 们 注意 到 从 纯 数学 的 观点 来 看 ， 我 们 没有 必要 始终 区 分 不 同 的 模型 结构 ， 比 如 所 有 这 
些 模型 结构 可 以 被 看 作 一 个 “完全 〈fall)” 模 型 的 特例 ， 只 要 把 适当 的 参数 设 为 0〈 或 者 其 
他 与 模型 形式 对 应 的 常量 ) 那么 某 些 部 分 就 会 从 模型 中 消失 。 例 如 ， 线 性 回归 模型 y=ax,+b 
是 y= ax, +cx, + dx, +b “4 c=d=0 时 的 特例 。 这 样 就 把 模型 结构 搜索 问题 简化 为 本 章 后 面 要 讨 
论 的 参数 优化 问题 。 尽 管 数学 上 是 正确 的 ， 这 一 观点 经 常 不 是 最 有 价值 的 考虑 问题 方式 ， 因 
为 不 利于 突出 所 考虑 的 模型 结构 的 重要 结构 信息 。 

在 接 下 来 的 讨论 中 我 们 将 经 常 使 用 模型 一 词 来 代替 模型 或 模式 以 使 行文 简洁 ， 但 应 该 视 

为 是 指 这 两 种 类 型 的 结构 ， 搜 索 模 型 的 一 般 原理 对 于 搜索 模式 的 问题 也 是 适用 的 。 

关于 搜索 ， 值 得 进一步 说 明 的 问题 还 有 : 

@ 在 本 节 的 前 面 我 们 指出 ， 从 一 族 /中 寻找 具有 最 优 分 数 的 模型 或 结构 必然 涉及 为 
族 内 的 每 一 模型 结构 M 寻找 最 佳 的 参数 6.。 这 意味 着 概念 上 和 很 多 实践 中 都 需 
要 一 个 幅 套 的 循环 搜索 过 程 ， 也 就 是 在 模型 结构 的 搜索 内 幅 套 了 对 参数 值 的 优 
化 。 

@ 正如 我 们 已 经 指出 的 ， 通 常 根 本 不 存在 评分 函数 在 模型 空间 中 是 否 为 平滑 函数 的 概 
念 ， 因 此 很 多 传统 的 依赖 于 平滑 性 的 优化 技术 (例如 梯度 下 降 ) 是 不 适用 的 。 相 反 ， 
我 们 研究 的 范畴 是 组 合 优化 ， 在 这 一 领域 中 问题 的 内 在 结构 本 来 就 是 离散 的 《例如 
对 模型 结构 的 索引 ) 而 不 是 连续 的 函数 。 对 于 数据 控 气 中 的 大 多 数组 合 优化 问题 来 
说 ， 保 证 找到 最 佳 解 的 唯一 方式 就 是 穷 举 遍 历 所 有 的 可 能 解 ， 从 这 个 意义 上 来 说 ， 
这 些 问 题 具 有 固有 的 难以 驾驭 性 。 

o 对 于 某 些 问题 ， 当 我 们 从 一 个 模型 结构 转移 到 下 一 个 时 我 们 有 可 能 不 必 对 参数 空间 
重新 进行 一 次 完全 的 参数 优化 。 例 如 ， 如 果 评 分 函数 是 可 分 解 的， 那么 新 结构 的 评 
分 函数 就 是 前 一 结构 的 评分 函数 和 表征 结构 变化 的 项 的 加 函数 。 例 如 ， 增 加 或 删除 
分 类 树 的 一 个 内 部 节点 仅 改变 了 这 一 节点 关联 的 子 树 所 对 应 的 数据 点 的 分 数 。 然 而 
在 很 多 情况 下 ， 模型 结构 的 改变 意味 着 旧 的 参数 值 对 于 新 的 模型 不 再 是 最 优 的 。 例 
如 ， 假 定 我 们 要 建立 一 个 从 x 预测 y 的 模型 ， 根 据 是 两 个 数据 点 œ y) = C1, 1) 
和 (x, y) = (3，3)。 我 们 首先 试验 一 个 非常 简单 的 模型 y=a， 即 y 是 一 个 常 函数 以 
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使 我 们 的 所 有 预测 都 相同 )。 那 么 使 误差 平方 和 Q-a) + (3-a) ? RIMER a EA 2 
现在 我 们 试 一 个 更 复杂 的 模型 y=bx+a。 这 在 模型 中 又 加 了 一 项 。 现 在 使 误差 平方 和 
(这 是 一 个 标准 的 回归 问题 ， 尽 管 相当 简单 ) 最 小 化 的 a M b 值 分 别 为 0 和 1。 我 们 
看 到 a 的 估计 依赖 于 模型 中 的 其 他 因素 。 按 照 数 据 的 正 交 性 (orthogonality)， 总 结 
出 模型 改变 而 参数 估计 不 被 影响 的 条 件 是 可 能 的 。 通 常 知 道 何 时 可 以 适用 这 一 规律 
是 有 价值 的 ， 因 为 这 样 就 可 以 开发 更 快 的 算法 〔 举 例 来 说 ， 如 果 回 归 中 的 变量 是 正 
交 的 ， 那 么 我 们 就 可 以 一 个 一 个 地 分 析 这 些 变量 )。 然 而 ， 这 样 的 情况 更 多 地 出 现在 
事先 设计 好 的 实验 中 ， 在 数据 挖掘 情况 下 的 “二 手 ” 数 据 中 出 现 的 较 少 。 由 于 这 个 

原因 ， 本 书 不 再 讨论 这 种 问题 。 
对 于 线性 回归 ， 参 数 估计 并 不 困难 ， 因 此 为 每 个 考虑 的 模型 结构 重新 计算 最 优 参数 更 直 
观 易 懂 (可 能 多 少 消耗 一 些 时 间 )。 然 而 ， 对 于 像 神经 网 络 这 样 的 复杂 模型 ， 参 数 优化 可 能 
既 有 较 高 的 运算 要 求 又 需要 小 心地 调整 优化 方法 本 身 《 在 本 章 的 后 面 将 看 到 这 一 点 )。 因 此 ， 
模型 搜索 算法 的 “内 层 循环 ”可 能 包括 相当 繁重 的 运算 。 一 种 缓解 这 一 问题 的 方法 是 保持 模 
型 中 已 经 存在 的 参数 为 它们 的 以 前 值 ， 仅 仅 估计 增加 到 模型 中 的 参数 的 值 ， 尽 管 这 一 策略 显 
然 不 是 最 优 的 ， 但 它 平 衡 了 仅 对 很 少 的 模型 估计 出 高 度 精 确 的 参数 和 对 远 多 于 此 的 模型 近似 


”[240| 估计 出 参数 这 两 者 间 的 矛盾 。 


@ 显然 对 于 最 佳 子 集 问 题 和 最 佳 分 类 树 问 题 ， 穷 举 搜索 〈 对 模型 族 /中 的 所 有 候选 模型 
计算 评分 函数 ) 对 于 p 取 任 何 非 平凡 值 的 情况 都 是 难以 驾驭 的 ， 因 为 每 种 情况 有 2? 
和 p> 个 模型 要 分 析 。 不 幸 的 是 ， 这 种 可 能 模型 或 模式 结构 数量 的 组 合 爆炸 在 数据 
挖掘 中 是 很 常见 的 。 因 此 ， 即 使 还 没有 考虑 对 于 每 一 个 模型 要 进行 参数 优化 过 程 的 
复杂 运算 ， 仅 仅 枚 举 模型 对 于 很 大 的 p 就 可 能 变 得 难以 驾驭 。 在 涉及 高 维 数据 集 (P 
很 大 ) 的 数据 挖掘 问题 中 这 个 问题 尤其 严重 。 

@ 对 于 存在 固有 难 驾 驭 性 的 问题 ， 我 们 必须 借助 被 称 为 启发 式 搜 索 〈heuristic search) 
的 技术 。 实 验证 明 (或 者 平均 来 看 ) 这 些 技术 可 以 提供 好 的 性 能 ， 但 是 不 能 保证 始 
AEAEE., “AR” BR (greedy heuristic) (XAA AÉ (ocal 
improvement)) 是 一 种 更 好 的 方法 。 对 于 模型 搜索 的 情况 ,“ 贪 禁 ” 搜 索 意 味 着 如 
果 给 定 了 一 个 当前 模型 M,， 那 么 便 寻 找 “ 邻 近 ”M 的 其 他 模型 〈 需 要 定义 “邻近 ” 
的 含义 )， 并 且 如 果 确 实 有 优 于 M 的 模型 那么 就 选择 这 当中 最 好 的 “根据 评分 函 
数 )。 i 


8.2.2 ”数据 挖掘 中 的 状态 空间 搜索 


描述 离散 空间 中 搜索 算法 的 一 种 通用 方式 是 逐一 确定 下 面 这 些 问题 : 
1， 状 态 空间 表示 : 我 们 把 搜索 问题 看 作 一 种 在 离散 的 状态 集合 中 的 移动 。 对 于 模型 搜 
索 ， 每 一 个 模型 结构 就 是 状态 空间 中 的 一 个 状态 。 把 每 一 个 状态 想像 为 图 《非常 庞 大 ) 中 的 
一 个 顶点 有 助 于 建立 这 一 概念 。 对 搜索 问题 的 一 种 抽象 定义 是 从 某 个 特定 的 节点 〈 也 就 是 状 
态 )( 比 如 MD 开始 ， 然 后 在 状态 空间 中 移动 ， 目 的 是 找到 对 应 于 具有 最 高 得 分 的 状态 的 那 
个 节点 。 
2， 搜 索 算 子 ， 搜 索 算 子 对 应 于 在 搜索 空间 中 的 合法 “移动 "。 例如， 在 线性 回归 中 选择 
模型 的 算 子 可 能 被 定义 为 从 当前 的 模型 中 增加 一 个 变量 或 删除 一 个 变量 。 可 以 把 搜索 算 子 看 
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作 是 状态 空间 中 的 一 个 有 向 边 。 也 就 是 说 ， 如 果 在 一 个 模型 结构 Mi; 和 另 一 个 模型 结构 Mi 之 
间 存 在 一 个 算 子 ， 那 么 在 图 中 就 有 一 个 从 M,; 到 Mi 的 有 疝 边 。 
下 面 举 一 个 简单 的 例子 以 帮助 我 们 理解 这 个 概念 。 考 虑 为 一 个 特定 的 分 类 模型 〈 例 如 ， 

最 近邻 模型 ) 从 p 个 变量 中 选择 最 佳 子 集 的 一 般 性 问题 。 设 评分 函数 就 是 特定 子 集 的 交叉 验 
证 分 类 精度 。 令 M, 表示 我 们 考虑 的 模型 族 〈 也 就 是 包含 K=2?-1 个 不 同 子 集 (BERN FRR LD 
包含 -个 变量 ) 的 所 有 模型 ) 内 的 一 个 模型 结构 个 体 。 因 此 ， 这 个 状态 空间 有 27-1 个 状态 ， 
从 仅 包含 单一 变量 的 模型 子 集 M sap Mp ={x2}，… 到 包含 所 有 p 个 变量 的 完全 模型 Mk 
={xl，…，]。 接 下 来 定义 搜索 算 子 。 对 于 子 集 选 择 问题 经 常 考虑 简单 的 算 子 ， 比 如 一 次 增 
加 一 个 变量 或 一 次 删除 一 个 变量 。 因 此 ， 在 模型 族 中 任何 具有 p' 个 变量 的 状态 (模型 结构 ) 
上 有 两 个 移动 “方向 ”， 加 一 个 变量 移动 到 具有 pH 个 变量 的 状态 ， 或 删除 一 个 变量 移动 到 
具有 p-1 个 变量 的 状态 (图 8-1 显示 了 四 个 变量 的 子 集 选择 问题 的 状态 空间 )。 我 们 可 以 很 
容易 地 把 这 两 个 算 子 推广 到 每 次 增加 或 删除 > 个 变量 。 这 种 “ 贪 禁 的 局 部 ” RTE BRA 
到 很 多 数据 挖掘 算法 中 。 可 以 根据 起 始 状 态 有 所 不 同 把 使 用 这 一 思想 的 搜索 算法 分 为 以 下 两 
种 ， 前 向 选择 (forward selection) 算法 从 最 小 容量 的 模型 开始 向 前 工作 不 断 增 加 变量 ， 而 后 
向 选择 (backward selection) 算法 从 全 模型 开始 以 相反 的 方式 工作 ， 在 实践 中 当 p 很 大 时 前 
向 选择 经 常 是 唯一 的 可 驾驭 方法 ， 因 为 反 向 工作 在 计算 方面 可 能 是 不 可 行 的 。 





图 8-1 ”状态 空间 的 一 个 简单 例子 。 这 里 包含 了 四 个 变量 X,, Xp, Xs, Xo ME 
边 的 节点 是 个 空 集 一 一 也 就 是 说 在 这 个 模型 或 模式 中 没有 任何 变量 


有 必要 指出 通过 有 限 连 接 把 我 们 的 问题 转化 为 状态 空间 表示 并 没有 改变 一 般 模型 搜索 问 
题 的 内 在 难 驾驭 性 。 为 了 发 现 最 佳 的 状态 ， 仍 需要 访问 总 数量 达 指 数 级 的 大 量 状态 。 状 态 空 
间 / 算 子 表 示 的 作用 是 定义 了 一 种 对 状态 空间 进行 局 部 探索 Cocal exploration) 的 系统 方法 ， 
其 中 “局 部 ” - 词 是 从 探索 的 是 状态 空间 的 邻近 状态 这 个 角度 来 说 的 (也 就 是 有 算 子 和 它们 
相连 的 那些 状态 )。 


8.2.3 简单 贪 禁 搜索 算法 


可 以 像 下 面 这 样 定义 一 种 通用 的 焦 禁 搜索 算法 : 
1， 初 始 化 ， 选 取 一 个 初始 状态 M‘“”， 对 应 于 一 种 特定 模型 结构 Me 。 
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2. 迭代: wM? OSS i 次 循环 时 的 当前 模型 结构 ， 使 用 评分 函数 评估 所 有 的 可 能 邻近 
(按照 算 子 的 定义 ) 状态 并 转移 到 最 好 的 一 个 。 注 意 这 个 评估 过 程 可 能 为 每 一 个 邻近 的 模型 
结构 进行 参数 估计 《或 根据 评分 函数 进行 调整 )。 必 须 演 算 评分 函数 的 次 数 就 是 可 以 应 用 到 
当前 状态 的 算 子 的 数量 。 因 此 ， 在 使 用 的 算 子 数量 和 选取 状态 空间 内 下 一 个 状态 所 家 的 时 间 
之 间 存 在 一 个 折衷 问题 。 

3. 停止 判 据 ， 重复 第 2 步 直到 再 也 无 法 进一步 改善 局 部 评分 函数 的 结果 〈 也 就 是 ， 遇 
到 了 状态 空间 中 的 局 部 最 小 值 )。 

4， 多 次 重新 启动 : (这 一 步 是 可 选 的 ) 使 用 不 同 的 初始 起 始点 重复 步骤 1 到 3 并 选取 其 
中 的 最 佳 结果 。 

这 个 通用 的 算法 与 我 们 在 本 章 后 面 要 讨论 的 用 来 优化 参数 的 局 部 搜索 方法 实质 上 是 很 相 
似 的 。 注 意 在 第 2 步 中 ， 我 们 必须 显 式 地 评估 出 移动 到 离散 空间 中 邻近 模型 结构 的 效果 ; 与 
此 不 同 ， 对 于 连续 空间 中 的 参数 优化 问题 ， 我 们 经 常 能 够 使 用 显 式 的 梯度 信息 来 决定 移动 的 
方向 。 第 4 bo 有 助 于 避免 在 局 部 最 小 值 处 结束 ， 而 没有 得 到 全 局 最 小 值 〈 不 过 这 不 保证 
一 定 得 到 全 局 的 最 小 值 ， 后 面 我 们 还 会 讨论 这 个 问题 )。 对 于 很 多 结构 搜索 问题 ,“ 贪 禁 ” 搜 
索 被 证 明 并 非 是 最 优 的 。 然 而 ， 通 常 它 是 一 种 有 用 的 启发 式 方法 〈 对 于 很 多 问题 ， 它 找到 的 
解 平均 看 来 是 非常 好 的 )， 并 且 当 从 随机 选取 的 初始 状态 多 次 重复 时 ， 这 种 方法 的 简洁 性 使 
它 对 很 多 实际 的 数据 挖掘 应 用 都 很 有 价值 。 


8.2.4 ”系统 搜索 和 搜索 启示 


上 面 描述 的 通用 算法 经 常 被 称 为 “把 山 ” 算 法 ， 因 为 ( 当 目 标 是 最 大 化 函数 时 ) 它 仪 沿 
着 状态 空间 中 的 单一 “路 径 ” 寻 找 评分 函数 的 最 大 值 。 一 种 更 通用 《〈 但 也 更 加 复杂 ) 的 方法 
是 同时 跟踪 多 个 模型 ， 而 不 是 单一 的 当前 模型 。 理 解 这 种 方法 的 一 种 简单 方式 是 想像 一 个 搜 
索 树 一 一 一 种 动态 建立 的 数据 结构 ， 当 我 们 搜索 状态 空间 时 ， 使 用 这 一 结构 来 跟踪 我 们 已 
经 访问 和 评估 过 的 状态 。( 当 然 这 与 分 类 树 根本 无 关 。) 搜索 树 并 不 与 状态 空间 等 价 ， 相 反 ， 
它 是 描述 特定 搜索 算法 如 何在 状态 空中 移动 的 一 种 表示 。 

举 一 个 例子 会 有 助 于 闹 明 搜索 树 的 思想 。 再 次 考虑 寻找 供 分 类 模型 使 用 的 最 佳 变 量 
子 集 的 问题 。 我 们 从 根本 不 包含 任何 变量 的 “模型 ”开始 ， 对 于 这 个 初始 模型 ， 训 练 数 
据 中 最 可 能 类 的 值 就 是 对 所 有 数据 点 的 预测 值 。 这 就 是 搜索 树 的 根 节点 。 假 定 我 们 使 用 
仅 允 许 每 次 加 入 变量 的 前 向 选择 算 子 。 在 根 节点 ， 有 p 个 变量 可 以 被 加 入 到 没有 变量 的 
模型 ， 而 且 我 们 可 以 把 这 p 个 新 的 模型 表示 为 原始 根 节点 的 p 个 子 节点 。 依 此 类 推 ， 我 
们 可 以 为 这 p 个 节点 的 每 一 个 加 入 p 个 变量 ， 即 为 每 一 个 创建 p 个 子 节点 ， 即 总 共有 p? 
个 (显然 ，p?-[ 沾 个 是 元 余 的 ， 实 践 中 我 们 需要 实现 一 种 重复 状态 探测 方法 来 从 树 上 删除 
宛 余 的 节点 )。 

图 8-2 显示 了 搜索 树 的 一 个 简单 实例 ， 它 针对 的 是 图 8-1 中 的 状态 空间 。 这 里 根 节点 
包含 空 的 集合 〈 没 有 变量 ) 并 且 在 搜索 的 任何 阶段 仅 考虑 两 个 最 佳 的 状态 。 这 个 搜索 算 
法 已 经 发 现 (截止 图 中 所 示 状 态 ) 的 两 个 最 佳 状态 〈 由 评分 函数 所 决定 的 ) AX.) A(X, 
Xy Xaļe 








O 译注， 原 书 此 处 为 第 3 步 ， 已 确认 有 误 。 
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图 8-2 ”针对 图 8-1 中 状态 空间 的 简单 搜索 树 示 例 


随 着 我 们 对 状态 空间 的 搜索 ， 搜 索 树 也 不 断 地 演进 ， 我 们 可 以 把 跟踪 的 所 有 叶子 结 点 
(模型 结构 ) 想像 〈 假 设 ) 为 供 选择 的 候选 模型 。 因 为 在 树 的 第 上 层 〈 根 节点 的 深度 为 0， 
分 支 因 子 是 p) 有 天 个 时 子 结 点 需要 跟踪 ， 所 以 这 种 方法 很 快 就 进行 不 下 去 了 。 使 用 这 种 
蛮 力 搜索 方法 〈 实 质 是 对 搜索 树 的 广度 优先 (breadth-first) 搜索 )， 我 们 会 很 快 用 光 内 存 。 
另 一 种 存储 效率 很 高 的 方法 是 深度 优先 (depth-first) 搜索 ， 正 如 名 字 所 暗示 的 ， 这 种 方法 
先 探索 搜索 树 到 某 个 最 大 深度 ， 然 后 再 折 回 以 递归 的 方式 对 下 一 个 分 支 重 复 这 种 深度 优先 
搜索 。 

这 两 种 技术 都 是 盲目 搜索 (blind search) 的 例子 ， 因 为 在 这 些 方法 中 它们 仅 机 械 地 排 
序 要 探索 的 节点 ， 而 不 是 利用 评分 函数 。 通 常 ， 先 探索 更 有 希望 的 节点 可 以 提高 性 能 (更 
快 地 找到 更 高 质量 的 模型 )。 在 搜索 树 中 这 意味 着 首先 考虑 具有 最 高 分 数 的 叶子 节点 的 子 
节点 ; 在 子 节点 被 加 入 作为 叶子 后 ， 再 分 析 具 有 最 高 分 数 的 新 的 叶子 节点 。 但 是 这 种 策略 
也 会 很 快 就 产生 过 多 的 模型 结构 〈 树 上 的 节点 )， 超 出 内 存 的 存储 能 力 。 因 此 ， 必 须 采 取 
相应 的 策略 。 例 如 ， 可 以 实现 一 种 束 状 搜索 (beam search)”， 使 用 大 小 为 b WREER 
索 的 任意 点 仅 跟踪 个 最 佳 的 模型 〈 等 价 于 仅 跟 踪 树 上 的 已 个 最 佳 叶子 )。( 在 图 8-2 中 b= 
2.) 如 果 发 现 最 佳 模型 的 唯一 方式 恰恰 是 先 要 考虑 不 最 优 的 模型 〈 因 此 ， 可 能 在 束 外 )， 
那么 这 种 方法 自然 也 不 是 最 优 的 。 然而， 一 般 情 况 下 束 状 搜索 是 非常 高 效 的 。 罕 无 疑问 ， 
很 多 时 候 它 都 比 简 单 的 扑 山 算法 更 高 效 ， 后 者 类 似 于 以 它 探索 搜索 树 的 方式 进行 深度 优先 
搜索 : 在 任何 迭代 步 中 仅 考虑 一 个 模型 ， 并 且 选 取 下 一 个 模型 作为 当前 模型 的 最 高 分 子 节 
点 。 





8.2.5 ”分 支 定 界 法 


在 实践 中 一 种 很 有 用 的 方法 是 分 支 定 界 〈branch-and-bound)。 它 的 基本 思想 非常 简单 。 
在 探索 搜索 树 时 ， 我 们 一 直 记 录 着 到 目前 为 止 被 评估 出 的 最 佳 模型 结构 ， 于 是 对 搜索 树 的 一 
个 特定 分 支 (还 没有 探索 过 的 ) 我 们 可 以 分 析 计 算出 一 个 最 佳 可 能 分 数 的 下 界 。 如 果 这 个 边 
界 大 于 当前 最 佳 模 型 的 分 数 ， 那 么 我 们 就 不 必 搜 索 这 个 子 树 了 ， 可 以 把 它 剪除 。 例 如 ， 考 虑 
从 p 个 变量 的 集合 中 寻找 用 于 分 类 的 个 变量 的 最 佳 子 集 的 问题 ， 我 们 使 用 在 训练 集合 上 的 
分 类 误差 率 作 为 评分 函数 。 定 义 一 个 树 ， 它 的 根 节点 是 所 有 p 个 变量 的 集合 ， 根 节点 的 紧 久 


O 译注 ， 即 限定 范围 搜索 。 
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子 节点 是 删除 了 一 个 变量 的 节点 〈 每 个 有 p1 个 变量 )， 下 一 层 删除 两 个 变量 (有 | 个 这 样 
的 唯一 节点 ， 每 一 个 有 p-2 个 变量 )， 依 此 类 推 到 ? 个 叶子 ， 每 一 个 是 包含 上 个 变量 的 子 集 
(这 些 就 是 候选 答案 )。 注 意 训练 集 误差 率 不 会 随 着 我 们 沿 树枝 向 下 而 降低 ， 因 为 越 下 面 的 
节点 基于 的 变量 数 越 少 。 

下 面 我 们 按 深度 优先 的 方式 探索 这 棵 树 。 在 深度 优先 算法 已 经 下 降 到 一 或 多 个 叶子 
节点 后 ， 我 们 会 计算 出 模型 (叶子 ) 所 对 应 的 个 变量 集合 的 分 数 。 显 然 其 中 分 数 最 低 
的 是 目前 最 佳 的 候选 变量 模型 。 现 在 假定 ， 再 沿 树 的 其 他 分 支 疝 下 探索 使 我 们 直到 了 
一 个 分 数 大 于 目前 最 佳 k 变 量 节点 的 分 数 。 既 然 分 数 不 会 随 着 我 们 沿 这 个 分 支 继续 向 下 
探索 而 降低 ， 那 么 就 没有 必要 沿 这 一 分 支 继续 寻找 了 : 这 个 分 支 的 更 低 节点 不 可 能 具有 
比 我 们 已 经 发 现 的 最 佳 太 变 量 解 更 低 的 分 类 误差 率 。 因 此 我 们 可 以 不 必 继 续 沿 这 一 分 支 
评估 下 面 的 节点 。 相 反 ， 我 们 向 上 返回 到 最 近 的 包含 未 探索 过 分 支 的 节点 ， 并 开始 分 析 
这 个 节点 。 可 以 通过 对 搜索 树 排序 来 改进 这 一 基本 思想 ,以 便 先 探索 最 有 希望 的 节点 (“ 最 
有 希望 的 ”节点 是 指 最 可 能 在 训练 集 上 产生 最 低 误差 率 的 节点 )。 这 可 以 使 修剪 更 高 效 。 
这 种 基本 的 分 支 定 界 策略 可 以 大 大 地 提高 模型 搜索 的 运算 效率 。( 尽 管 它 当 然 不 是 万 无 一 
失 的 解决 方案 一 一 对 于 很 多 问题 来 说 ， 这 一 策略 过 于 庞大 以 至 于 无 法 在 合理 的 时 间 内 得 
出 答案 。) 

以 上 给 出 了 一 些 非常 通用 的 用 于 搜索 模型 结构 的 思想 。 对 于 具体 的 模型 结构 和 评分 函 
数 通常 可 以 设计 出 更 高 效率 的 算法 。 尽 管 如 此 ， 像 迭代 局 部 改善 、 束 状 搜索 和 分 支 定 界 这 
样 的 一 般 原理 是 很 有 实践 价值 的 ， 这 些 思想 经 常 以 各 种 形式 出 现在 众多 数据 挖掘 算法 之 
中 。 


8.3 ”参数 优化 方法 


8.3.1 参数 优化 : Am 


设 $(9)= 8$(61D, M ) 为 我 们 要 优化 的 评分 函数 ，6 是 模型 的 参数 。 为 了 简单 起 见 ， 我 们 
通常 不 考虑 对 DAM 的 显 式 依 赖 。 现 在 我 们 假定 模型 M 是 固定 的 (也 就 是 说 ， 在 参数 估计 
的 内 层 循 环 中 暂时 这 样 ， 外 层 循环 是 对 多 个 模型 结构 的 )。 我 们 又 再 次 假定 ， 我 们 的 目标 是 
最 小 化 S$， 而 不 是 最 大 化 它 。 注 意 如 果 g 是 5 的 单调 函数 《比如 log S), MASH g (5) 会 在 
同一 个 6 值 处 最 小 化 。 

一 般 来 说 9 是 d 维 的 参数 向 量 。 例 如 ， 在 回归 模型 中 9 是 系数 和 截 距 的 集合 。 在 树 模 型 
中 6 是 分 割 内 部 节点 的 阐 值 。 在 人 工 神经 网 络 模型 中 ，6 是 网 络 中 的 权 。 

在 我 们 要 考虑 的 很 多 更 加 灵活 的 模型 〈 神 经 网 络 是 一 个 很 好 的 例子 ) 中 ， 参 数 向 量 的 维 
度 会 非常 迅速 地 增长 。 例 如 ， 一 个 有 10 个 输入 、10 个 隐藏 单元 和 1 个 输出 的 神经 网 络 可 能 
有 10x10+10=110 个 参数 。 这 给 我 们 的 优化 问题 一 个 暗示 : 在 这 种 情况 下 我 们 要 在 110 维 的 
空间 中 寻找 一 个 非 线 性 函数 的 最 小 值 。 

而 且 ， 这 个 高 维 函 数 的 形状 可 能 相当 复杂 。 例 如 ， 除 了 结构 特别 简单 的 问题 外 ，3 总 
是 多 峰 的 (multimodal)。 还 有 ， 既 然 S=8 (0 ID, M) 是 对 观察 数据 D 的 函数 ， 那 么 对 于 任 
意 给 定 问题 8 的 精确 结构 是 依赖 数据 的 。 于 是 这 意味 着 对 于 不 同 的 数据 集 D 我 们 要 优化 一 
个 完全 不 同 的 函数 S$， 以 至 于 要 作出 一 般 情况 下 有 多 少 个 局 部 最 小 值 的 结论 也 是 困难 的 。 
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正如 第 7 章 所 讨论 的 ， 某 些 情况 下 〈 例 如 ， 当 训练 数据 点 被 假定 为 彼此 独立 时 ) 可 以 把 
很 多 常用 的 评分 函数 写 为 局 部 误差 函数 和 的 形式 : 


N 
$0) = ¥ ev, 56 @) (8.1) 


i=l 

其 中 和 人 是 我 们 的 模型 对 训练 数据 中 目标 值 y(i) 的 估计 ，e 是 一 个 衡量 模型 的 预测 和 目标 问 
距离 的 误差 函数 《比如 误差 平方 或 对 数 似 然 )。 注 意 S 的 函数 (关于 8 的 函数 ) 形式 可 能 

过 以 下 两 个 因素 的 任 一 个 而 变 得 复杂 : 正在 使 用 的 模型 结构 的 复杂 性 〈 也 就 是 》 的 函数 形 
式 ); 误差 函数 e MBN. Pin, MRI RKO 的 线性 函数 ， 而 且 e 被 定义 为 误差 平方 ， 

那么 8 是 6 的 二 次 函数 ， 因 为 二 次 函数 仅 有 唯一 的 《全 局 ) 最 小 值 或 最 大 值 ， 所 以 这 会 使 优 
化 问题 相对 直观 。 然 而 ， 如 果 3》 是 通过 一 个 更 加 复杂 的 模型 产生 的 ， 或 者 e 是 是 关于 8 的 更 
复杂 的 函数 ， 那 么 5 就 未 必 是 关于 6 的 简单 平滑 函数 ， 也 未 必 具 有 唯一 的 易 发 现 的 极 值 。 一 
般 来 讲 ， 求 解 使 SO) 最 小 化 的 参数 9 的 问题 等 价 于 在 高 维 空间 中 最 小 化 一 个 复杂 函数 的 问 
题 





我 们 不 妨 这 样 定义 S 的 梯度 函数 : 


(8.2) 





g (0) vso 5P 35(0) | 


00, ° 00, a0, 


这 是 d 维 的 5 对 9 偏 导 数 向 量 。 通 常 VeS (6) =0 是 $ 在 6 处 取 极 值 〈 比 如 最 小 值 ) 的 
必要 条 件 。 这 是 关于 d 个 变量 的 4 个 方程 的 联 立方 程 组 〈 即 每 个 偏 导数 对 应 于 一 个 方程 )。 
因此 ， 我 们 可 以 对 这 d 个 方程 的 解 6 (对 应 于 3 (6) 的 极 值 ) 进行 搜索 。 

我 们 可 以 把 参数 优化 问题 分 成 两 种 类 型 : 

1. 一 种 是 我 们 可 以 以 闭合 形式 《closed form) 求解 的 最 小 化 问题 。 例 如 ， 如 果 $ (6 ) 是 

6 的 二 次 函数 ， 那 么 梯度 g (0) 是 6 的 线性 函数 ， 于 是 VS (9 ) = 0 的 解 就 包含 了 4 个 
线性 方程 的 解 。 然 而 ， 在 实际 的 数据 挖掘 问题 中 这 种 情况 是 很 少见 的 。 

2. 第 二 种 是 一 般 的 情况 ，5 (6 ) 是 6 的 平滑 非 线性 函数 ， 由 8 (8) = 0 得 到 的 4d 个 方程 没 

有 闭合 形式 的 解 。 对 于 这 种 类 型 的 问题 ， 通 常 我 们 要 使 用 达 代 提高 的 搜索 技术 ， 利 
用 关于 s 曲率 的 局 部 信息 来 引导 在 S 曲面 上 的 局 部 搜索 。 这 本 质 上 就 是 “ 怜 山 ” 
(hill-climbing) 或 下 降 方法 〈 例 如 最 陡峭 下 降 )。 用 于 训练 神经 网 络 的 反 向 传播 技术 
就 是 这 种 最 陡峭 下 降 算 法 的 一 个 例子 。 

因为 第 二 种 情况 依赖 于 局 部 信息 ， 所 以 它 有 可 能 以 收敛 到 局 部 最 小 值 而 结束 ， 没 有 收敛 
到 全 局 最 小 值 。 因 此 ， 经 常 通过 一 种 随机 的 成 分 来 补充 这 种 方法 ， 例 如 ， 从 随机 选取 的 不 同 
起 始点 启动 优化 过 程 。 


8.3.2 ”闭合 形式 解 和 线性 代数 方法 


考虑 当 5 (90) 是 9 的 二 次 函数 的 特例 。 这 是 一 种 非常 重要 的 特例 ， 因 为 这 时 梯度 g0) 是 
9 的 线性 函数 ， 而 且 5 的 最 小 值 是 8 (6 ) =0 时 的 d 个 方程 的 唯一 解 〈《 假 定 $ 在 这 些 解 处 的 二 
次 导数 矩阵 满足 正定 的 条 件 )。 在 第 11 章 的 多 元 回归 《通常 使 用 误差 平方 和 函数 ) 中 我 们 对 
此 作 了 详细 的 阐述 。 第 4 章 指 出 了 如 果 采 用 似 然 作为 评分 函数 也 可 以 得 到 与 此 同样 的 结 采 ， 
条 件 是 假定 误差 服从 正 态 分 布 。 通 常 ， 这 样 的 问题 可 以 被 看 作 解 一 个 dxd 矩阵 的 逆 的 问题 ， 
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所 以 一 般 可 以 通过 O (nd? +d?) 衡量 求解 这 种 线性 问题 的 复杂 度 ， 即 需要 nd? 步 建立 所 天 
的 原始 矩阵 ，d 心 步 来 求 逆 。 


8.3.3 优化 平滑 函数 的 基于 梯度 方法 


当然 我 们 通常 所 面 对 的 情况 是 S(O) 并 非 是 关于 6 的 具有 单一 最 小 值 的 简单 函数 。 例 如 ， 
如 果 我 们 的 模型 是 隐 单 元 为 非 线性 函数 的 神经 网 络 ， 那 么 $ 将 是 关于 6 的 相当 复杂 的 非 线性 
函数 ， 具 有 多 个 局 部 最 小 值 。 正 如 我 们 曾 指 出 的 ， 很 多 方法 是 以 迭代 式 地 重复 某 种 对 模型 的 
局 部 改善 过 程 为 基础 的 。 

典型 的 局 部 改善 迭代 算法 可 以 被 分 解 为 四 个 相当 简单 的 部 分 : 

1， 初 始 化 ;为 参数 向 量 6 选取 初始 值 9? (经 常 是 随机 选取 的 )。 

2. HK: 从 i=0 开始 ， 令 

0it= Oi + Aivi (8.3) 

其 中 y 是 下 一 步 的 方向 (相对 于 参数 空间 中 的 9 站， 决定 了 要 移动 的 距离 。 通 常 (但 
不 是 必须 ) vi 的 选择 标准 是 使 其 指向 改善 评分 函数 的 方向 。 

3. 收敛: 重复 第 2 步 直 到 8(6 7) 达 到 一 个 局 部 最 小 值 。 

4. 多 次 重新 启动 : 从 不 同 的 初始 起 点 重复 第 1 到 3 步 ， 并 选取 发 现 的 最 佳 最 小 值 。 

基于 这 一 一 般 结构 的 具体 方法 在 以 下 方面 有 所 不 同 ， 选取 在 参数 空间 中 的 移动 方向 Vi; 
沿 选取 方向 移动 的 距离 M。 注 意 这 个 算法 本 质 上 与 8.2 节 定义 的 搜索 离散 状态 集 的 局 部 算法 
具有 同样 的 设计 ， 唯 一 不 同 的 是 这 里 我 们 在 连续 的 a 维 空间 中 移动 ， 而 不 是 取 图 中 的 离散 步 
R. , 

这 种 算法 的 移动 方向 和 距离 必须 由 搜索 当前 点 的 局 部 信息 来 确定 一 一 例如 是 采集 一 次 导 
数 还 是 二 次 导数 信息 来 估计 5 的 曲率 。 然 而 ， 必 须 注意 平 衡 采集 信息 的 质量 和 计算 这 些 信息 
所 需 的 资源 (时间 、 内 存 》 这 一 对 矛盾 因素 。 不 存在 所 有 方面 都 比 其 他 方法 优秀 的 单一 方法 ; 
每 一 种 方法 都 有 优点 和 不 足 。 

下 面 要 讨论 的 所 有 方法 都 需要 确定 初始 点 和 收敛 〈 终 止 ) 判 据 。 这 些 要 素 的 具体 选择 会 
因应 用 的 不 同 而 不 同 。 此 外 , 所 有 这 些 方法 总 是 努力 寻找 8(6) 的 局 部 极 值 (local extremum). 
实践 中 我 们 必须 检查 找到 的 解 确 实 是 最 小 值 〈 不 是 最 大 值 或 鞍点 〈saddlepoint ))。 还 有 ， 对 
于 有 多 个 最 小 值 的 非 线性 函数 $， 无 法 判断 局 部 最 小 值 相 对 于 全 局 最 小 值 的 质量 ， 除非 对 整 
个 空间 进行 蛮 力 搜索 (或 使 用 复杂 的 概率 理论 ， 这 超出 了 本 书 的 范围 )。 尽管 存在 这 些 限制 ， 
基于 以 上 算法 的 优化 技术 在 数据 挖掘 实践 中 是 相当 有 用 的 ， 并 且 成 为 了 很 多 数据 挖掘 算法 的 
核心 。 


8.3.4 ”一 元 参数 优化 


先 考虑 一 种 特例 ， 仅 有 一 个 未 知 的 参数 96， 并 希望 最 小 化 评分 函数 8S(9)〈 例 如 图 8- 
3)。 尽 管 在 数据 挖掘 实践 中 我 们 通常 要 优化 的 模型 是 多 于 一 个 参数 的 ， 但 是 一 元 的 情 
况 是 相当 值得 重视 的 ， 因 为 从 中 可 以 清晰 地 看 出 与 更 一 般 的 多 元 参数 优化 问题 密切 相 
关 的 一 些 基本 原理 。 此 外 ， 一 元 搜索 可 以 作为 多 元 搜索 过 程 的 一 个 部 分 ， 在 后 一 种 情 
况 中 我 们 首先 利用 梯度 找到 搜索 的 方向 ， 然 后 使 用 一 元 搜索 决定 沿 这 一 方向 移动 的 距 
离 以 搜索 最 小 值 。 
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图 8-3 ”评分 函数 S$ (6 ) 的 一 个 例子 。S(6 ) 是 唯一 的 参数 6 的 
一 元 函数 ， 具 有 一 个 全 局 的 最 小 值 和 一 个 局 部 最 小 值 





095(0) 


4 9 (0) =8(0)= Ë ， 那 么 当 g (6)=0， 并 且 二 次 导数 8g(9)>0 时 ,5 取 最 小 值 。 如 
果 可 能 有 闭合 形式 的 解 ， 那 么 我 们 就 可 以 发 现 这 个 解 并 解决 这 个 问题 。 如 果 不 然 ， 那 么 我 们 
可 以 使 用 以 下 方法 之 一 。 
Newton-Raphson 方法 
假定 解 出 现在 某 个 未 知 点 95;， 也 就 是 8 (0°) = 0。 根 据 泰勒 级 数 展开 式 ， 对 于 距离 8 不 
远 的 点 0” 我 们 可 以 得 到 
g(0)~g(0°)+(050")g’(0") (8.4) 
以 上 的 线性 近似 忽略 了 (65~6”) ?及 更 高 次 的 项 。 既 然 0， 满 足 g (95) =0， 那 么 这 个 表达 
式 左 侧 等 于 0。 所 以 通过 重新 整理 各 项 ， 我 们 得 到 


0520°- £C 2) (8.5) 

8 (9 ) 
换 句 话 来 说 ， 这 说 明了 给 定 一 个 初始 值 9*"， 那 么 按 公 式 8.5 调整 6 "可 以 得 到 8 (8°) = 0 
的 解 。 通 过 反复 和 迭代， 在 理论 上 我 们 可 以 无 限 逼 近 真 实 解 。 这 个 迭代 过 程 就 是 基于 一 阶 和 二 
阶 导数 信息 的 一 元 优化 NR (Newton-Raphson) 迭代 更 新 。 和 迭代 的 第 ; 步 可 以 通过 下 式 计算 


git. gi 8) (8.6) 
8 (9 ) 

这 种 方法 的 有 效 性 依赖 于 等 式 8.4 的 线性 近似 质量 。 如 果 起 始 值 是 靠近 真实 值 % 的 ， 那 
么 我 们 可 以 期 待 这 种 近似 工作 得 很 好 ， 也 就 是 说 ， 我 们 可 以 以 抛物 线形 式 局 部 近似 S$ (6 ) 周 
围 的 曲面 (或 者 等 价 的 ， 导 数 8 (6) 在 95 和 6* 附近 是 线性 的 )。 事 实 上 ， 第 i 步 的 迭代 误 凑 
erl9 一 93 可 以 被 递归 的 写 为 


e eti (8.7) 


从 这 个 意义 上 来 说 ， 当 当前 的 6 靠近 解 63 时 ，NR 方法 的 收敛 率 是 二 次 的 (quadratic)。 
为 了 使 用 NR 更 新 ， 我 们 必须 知道 导数 函数 和 二 阶 导数 8(6 ) 的 闭合 形式 。 实 践 中 ， 对 
于 复杂 的 函数 我 们 可 能 无 法 得 到 闭合 形式 的 表达 式 ， 只 能 取 g (6) 和 8(6 ) 的 数值 近似 ， 这 会 
给 在 参数 空间 中 的 移动 引入 更 多 的 误差 。 然 而 ， 一 般 来 讲 如 果 我 们 可 以 精确 计算 闭合 形式 的 
梯度 和 二 阶 导 数 ， 那 么 这 样 做 还 是 很 有 利 的 ， 因 为 可 以 在 迁 代 优化 的 过 程 中 应 用 这 些 信 息 交 


Np 
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定 在 参数 空间 中 的 移动 。 
当然 ，NR 方法 的 缺点 是 初始 估计 9 可 能 没有 足够 靠近 真实 解 9” 而 使 这 个 近似 很 好 的 
作 。 这 种 情况 下 ，NR 步 又 可 能 很 容易 地 越过 5 的 真正 最 小 值 或 根本 不 收 化 。 


梯度 下 降 方法 

另外 一 种 方法 是 仅 使 用 梯度 信息 〈 至 少 提供 了 对 于 一 维 问题 的 正确 移动 方向 ) 启发 式 的 
选取 步 长 ).: 

Brl= 6'-g (0') (8.8) 

这 种 方法 尤其 在 优化 的 初期 (远离 真实 解 65 时 ) 特别 有 用 。 这 种 方法 的 多 变量 版 本 被 
称 为 梯度 (gradient) 或 最 陡峭 (steepest) 下 降 。 这 里 通常 被 选 为 相当 小 的 值 以 保证 我 们 不 
会 在 选取 的 方向 步 进 得 太 远 。 我 们 可 以 把 梯度 下 降 看 作 NR 方法 的 一 个 特例 ， 通 过 把 一 阶 导 
数 信息 shy 替换 为 常数 )。 


基于 冲 量 的 方法 
在 实践 中 必须 折衷 地 选取 入 。 如 果 选 得 太 小 ， 那 么 梯度 下 降 可 能 确实 收敛 得 太 慢 ， 每 一 
次 迭代 仅 前 进 非常 小 的 一 步 。 另 一 方面 ， 如 果 和 太 大 ， 那 么 就 失去 了 对 收敛 的 保证 ， 因 为 可 
能 步 进 得 太 远 而 越过 最 小 值 。 我 们 可 以 通过 增加 一 个 冲 量 (momentum) 项 来 加 速 梯 度 下 降 
的 收敛 过 程 ; 
0! = DAA (8.9) 
其 中 心 被 递归 的 定义 为 : 
Ai=-Xg (0') +A” (8.10) 
Eput- PP RSS OSS). HER Mp =0 时 就 是 公式 8.8 中 的 标准 梯度 下 降 方 法 ，/0 
时 当前 的 方向 A 还 是 前 一 次 方向 41 的 函数 ， 从 这 个 意义 上 讲 增加 了 一 个 “ 冲 量 ”项 。A 的 
作用 是 在 S 的 低 曲 率 区 域 加 速 收敛 〈 于 是 改善 了 标准 的 梯度 下 降 在 这 种 区 域 非 常 缓慢 的 不 
E), 而 且 幸 运 的 是 在 高 曲率 的 地 方 它 影响 很 小 ,已 经 证 明 在 实践 中 这 种 冲 量 局 发 (momentum 
heuristic) 和 有 关 的 思想 在 训练 像 神 经 网 络 这 样 的 模型 时 非常 有 价值 。 


括号 法 
对 于 有 些 特殊 的 函数 〔 例 如， 如 果 5 的 导数 是 不 平滑 的 ) 有 一 类 不 同 的 标量 优化 方法 ， 

这 些 方法 根本 不 依赖 于 任何 导数 信息 (也 就 是 说 ， 它 直接 工作 在 函数 S$ 上 ， 而 不 是 在 它 的 导 
Bg 上)。 通 常 这 种 方法 是 基于 一 种 加 括号 bracketing) 的 思想 一 一 找到 一 个 证 实 包 含 函 数 
极 值 的 括号 [9,，6]。 例 如 ， 如 果 存 在 一 个 “中 间 的 ”8 值 ， 满 足 8>> O> HH S On) 化 
S(9) AS (0,) 都 小 ， or 之 间 一 定 存在 一 个 函数 $ 的 局 部 最 小 值 (假定 5 
是 连续 的 )。 我 们 可 以 使 用 这 种 思想 匹配 一 条 经 过 这 三 个 点 8 On Ale, 的 抛物 线 ， 并 求 出 S 
(6,) WE. FPO, none gM 点 。 如 果 6, 就 是 要 求 的 最 小 值 ， 那 当然 好 ， 不 
然 的 话 我 们 可 以 通过 排除 6 和 来 缩小 括号 。 有 很 多 不 同 复杂 s 度 的 方法 都 使 用 了 这 种 思想 ( 例 
如 ， 一 种 被 称 为 Brent 方法 的 技术 ， 它 的 应 用 很 广 )。 从 以 上 的 说 明 来 看 括号 方法 明显 是 一 
种 搜索 策略 。 然 而 ， 我 们 在 这 里 介绍 ， 部 分 是 由 于 这 种 方法 在 寻找 最 优 参 数值 方面 的 重要 性 ， 
也 部 分 地 由 于 这 种 方法 依赖 于 具有 连续 结构 〈 例 如 ， 序 列 性 的 参数 空间 ， 即 使 被 最 小 化 的 
函数 是 不 连续 的 。 
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8.3.5 多 元 参数 优化 


现在 我 们 来 研究 更 为 复杂 的 问题 : 寻找 d 维 多 元 参数 回 量 9 的 标量 评分 函数 5 的 最 小 值 ， 
这 也 是 实践 中 经 常 遇 到 的 情况 。 很 多 方法 对 多 元 情况 的 处 理 与 标量 的 情况 是 相似 的 。 另 一 方 
面 ， 对 于 我 们 的 模型 ，d 可 能 非常 大 ， 所 以 多 维 的 优化 问题 要 明显 地 比 相应 的 一 元 情况 更 为 
复杂 。 例 如 ， 在 高 维 空间 中 局 部 最 小 值 现象 比 低 维 空间 更 为 普遍 。 此 外 ， 一 种 类 似 于 〈 实 际 
上 是 等 价 的 ) 组 合 爆炸 《我 们 在 讨论 搜索 时 提 到 过 ) 的 问题 也 会 出 现在 多 维 优化 中 ， 这 就 是 
第 6 章 中 我 们 已 经 讨论 过 的 维度 效应 〈curse of dimensionality )。 假 定 我 们 希望 找到 使 某 个 评 
分 函数 最 小 化 的 d 维 参数 向 量 ， 而 且 其 中 的 每 一 个 参数 是 定义 在 单位 区 间 [0，1] 中 的 。 那 么 
多 元 参数 向 量 就 是 定义 在 d 维 单位 超 立方 体 (hypercube) 中 的 。 现 在 假定 我 们 知道 最 优 解 6 的 
任何 分 量 都 不 在 区 间 [0，0.5] 内 。 当 d= 1 时， 这 意味 着 已 经 排除 了 一 半 参 数 空 间 。 然 而 ， 当 
10 20 
dioi, safi) -taseme mreom wl] -r 
2 1000 2 1 000 000 
间 被 排除 。 读 者 可 以 想像 一 一 或 者 亲手 做 一 下 这 个 算术 运算 一 一 当 问 题 中 包含 相当 大 数量 的 
参数 时 会 发 生 什 么 。 这 清楚 地 说 明了 确实 存在 错过 全 局 最 小 值 使 优化 结束 于 某 个 局 部 最 小 值 
(并 非 最 优 的 ) 上 的 风险 。 
遵循 前 一 小 节 的 模式 ， 我 们 先 描 述 优化 连续 函数 的 方法 (Newton-Raphson 等 方法 的 扩 
展 )， 然 后 措 述 可 以 应 用 到 不 连续 函数 的 方法 〈 与 括号 法 相似 )。 
前 面 小 节 中 列 出 的 迁 代 方法 从 某 个 初始 值 开始 ， 然 后 反复 迭代 改善 。 因 此 如 果 假 定 在 第 i 
步 参 数 向 量 的 取 值 为 9:。 那 么 要 把 前 面 列 出 的 方法 扩展 到 多 维 情况 ， 我 们 必须 回答 两 个 问题 : 
1. 我 们 该 从 90! 向 哪 一 个 方向 移动 ? 
2. 我 们 该 在 这 个 方向 上 移动 多 远 ? 
可 以 这 样 描述 局 部 迭代 的 一 般 过 程 : 
Orl=OHNTY $ (8.11) 
其 中 ，6 i 是 在 第 i 步 迭 代 时 的 估计 参数 ，v 是 指定 下 一 步 移动 方向 的 a 维 向 量 〈 由 使 用 的 具 
体 优化 技术 来 确定 )。 
例如 ， 对 于 多 元 梯度 下 降 (multivariate gradient descent) 方法 上 式 被 具体 化 为 : 
gr-=b-Xg (8) (8.12) 
其 中 是 标量 的 学 习 速 率 (learning rate)，g (0) 是 d 维 的 梯度 函数 〈 就 像 公式 8.2 中 定义 的 那 
样 )。 这 种 方法 也 被 称 为 最 陡峭 下 降 (steepest descent)， 因 为 -8 (9 7) 会 指出 从 6 :点 的 最 陡峭 
倾斜 方向 。 如 果 和 被 选取 的 足够 小 ， 那 么 梯度 下 降 保 证 会 收敛 到 函数 S 的 局 部 最 小 值 。 


























神经 网 络 中 广 为 应 用 的 反 向 传播 〈backpropagation ) 方法 实际 上 就 是 一 种 最 陡峭 下 降 算 . 


法 。 它 是 比 标准 方法 更 复杂 一 些 的 ， 但 这 仅 是 因为 网 络 中 的 多 个 层 使 上 面 所 需 的 导数 必须 使 
用 链 式 法 则 来 推导 。 
注意 最 陡峭 下 降 的 梯度 不 一 定 直接 指向 最 小 值 。 因 此 ， 对 于 图 8-4 所 示 的 情况 ， 如 果 拘 
泥 于 仅 沿 梯度 的 方向 移动 那么 可 能 是 效率 极 差 的 寻找 函数 最 小 值 的 方式 。 一 类 更 巧妙 的 多 元 
优化 方法 使 用 9 的 二 阶 导数 信息 决定 在 参数 空间 中 下 一 步 的 移动 方向 。 特 别 是 ，Newton 方 
法 (一 元 NR 方法 的 多 元 形式 ) 是 这 样 定义 的 : 
6! -9'_-H- (6) 2 (6') (8.13) 
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阵 的 元 素 是 这 样 定 义 的 : 

oS(0) 
00,00 m 





1<l, md (8.14) 
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图 8-4 AMEE RN ARTF. SS AAP TE SD Pe SR 
的 “ 碗 形 ”， 它 的 最 小 值 在 中 央 。 梯 度 下 降 没 有 直接 指出 最 小 值 的 方向 ， 相 反 往 往 
指出 的 是 穿越 碗 的 方向 〈 左 边 的 粗 实 线 )， 在 到 达 最 小 值 之 前 产生 一 系列 问 接 的 步骤 


就 像 一 元 的 情况 一 样 ， 如 果 5 是 二 次 的 ， 那 么 根据 Newton 标准 选取 的 步骤 直接 指向 S 
的 最 小 值 。 我 们 有 理由 希望 对 于 很 多 函数 来 说 ， 函 数 在 最 小 值 附近 的 形状 可 以 被 近似 为 8 的 
二 次 函数 〈 可 以 认为 是 用 抛物 面 来 近似 “平滑 ”山峰 的 形状 )， 因 此 ， 至 少 在 最 小 值 附近 ， 
Newton 策略 可 以 作出 关于 5 形状 的 正确 假定 。 事 实 上 ， 这 个 假定 就 是 泰勒 级 数 展开 式 的 多 
元 版 本 。 当 然 ， 尖 峰 的 形状 通常 不 会 恰好 为 抛物 线形 状 ， 所 以 有 必要 递归 的 应 用 Newton i% 
代 直 到 收敛 。 也 与 一 元 的 情况 相同 , Newton 方法 可 能 发 散 而 不 是 收敛 (例如 , 如 果 Hessian 4 
EH (00) 是 奇异 的 ， 那 么 在 8 就 不 存在 道 和 矩阵 H D. 

使 用 Newton 方法 是 有 代价 的 。 因 为 H 是 dxd 和 矩阵， 所 以 每 一 步 中 估计 H 和 对 它 求 道 需要 
复杂 度 为 O(nd *+d ，) 的 计算 。 对 于 参数 数量 很 庞大 的 模型 〈 比 如 神经 网 络 ) 这 种 方法 可 能 是 
根本 不 可 行 的 。 不 过 ， 我 们 可 以 通过 H 的 对 角 线 来 近似 (每 一 步 的 复杂 度 为 O (nd). SE 
对 角 线 近似 可 能 是 明显 不 正确 的 《因为 我 们 可 能 希望 参数 体现 出 相互 的 依赖 性 )， 但 无 论 如 何 这 
种 近似 是 有 价值 的 ， 因 为 这 样 只 需要 一 个 线性 的 开销 ， 而 不 需要 计算 完整 的 Hessian 矩阵 。 

另 一 种 方法 是 ， 当 在 参数 空间 中 移动 时 基于 梯度 信息 欠 代 建立 对 A UE. it 
技术 被 称 为 准 Newton 方法 。 起 初 我 们 按 梯度 方向 运行 一 定 步 数 《假定 初始 估计 已 = L, 
EARE), FRAP RR-A '(0') 9 (0'), FER Ay Oi) EB i BOER 
对 已 二 的 估计 。BEFGS (Broyden-Fletcher-Goldfarb-Shanno) 方法 是 基于 这 一 思想 的 一 项 
广 为 应 用 的 技术 。 

当然 ， 有 时 对 于 特定 的 模型 和 评分 函数 会 使 用 特定 的 方法 。 例 如 ， 第 11 章 中 描述 了 用 
于 拟 合 推广 线性 模型 的 选 代 加 权 最 小 二 乘法 (iteratively weighted least squares method) 就 是 
这 样 的 一 个 例子 。 

我 们 刚刚 描述 的 方法 在 每 一 次 迭代 中 都 要 寻找 这 一 步 的 “最 佳 ” 方 向 。 另 一 种 简单 的 做 
法 是 始终 沿 与 各 坐标 轴 平 行 的 方向 移动 。 这 样 做 的 不 足 是 这 种 算法 可 能 陷入 粘 灌 状态 (stuck) 
一 一 例如 ， 如 果 在 这 个 方向 有 一 条 很 长 的 狭窄 止 谷 。 如 果 在 最 小 值 附近 函数 的 形状 可 以 被 一 
个 二 次 函数 来 近似 ， 那 么 方向 由 这 个 函数 的 原则 Cprincipal) 坐标 轴 定 义 〈 可 能 不 与 各 坐标 
轴 平 行 )。 采 用 这 个 补充 的 坐标 系统 并 沿 新 的 坐标 轴 搜 索 会 加 快 搜 索 的 速度 。 事 实 上 ， 如 果 
要 被 最 小 化 的 函数 确实 是 二 次 的 ， 那 么 这 个 过 程 会 正好 在 d 步 内 发 现 最 小 值 。 这 些 新 的 坐标 
HERRAS E (conjugate direction )。 
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一 旦 我 们 已 经 决定 要 移动 的 方向 ， 我 们 可 以 使 用 一 个 “直线 搜索 Cline search)” WK 
决定 沿 选取 的 方向 要 移动 的 距离 ; 也 就 是 只 要 应 用 一 种 上 面 讨论 的 一 维 方 法 。 大 多 数 情况 下 ， 
使 用 一 种 一 元 方法 中 选取 步 长 的 快速 近似 方法 对 于 多 元 优化 问题 是 足够 的 ， 因 为 选取 方向 本 
身 就 是 基于 很 多 近似 的 。 

迄今 为 止 我 们 描述 的 方法 都 是 基于 ， 或 者 至 少 是 从 中 推导 出 ， 寻 找 最 佳 步骤 的 局 部 
方向 ， 然 后 沿 这 个 方向 移动 。 单 纯 形 搜索 方法 (simplex search method)〔 不 要 与 线性 规 
划 中 的 单纯 形 算法 相 混淆 ) 维护 一 个 d 维 参数 空间 中 的 单纯 形 (一 个 “ 超 四 面体 ” 

(hypertetrahedron))， 计 算 dti 个 点 的 函数 值 ， 并 依 此 定义 要 步 进 的 方向 。 为 了 说 明 这 
各 方法， 我 们 考虑 d=2 时 的 情况 。 这 时 要 在 三 个 (=d+1， 当 d=2 时 ) 点 处 计算 函数 值 ， 
这 三 个 点 被 组 织 为 一 个 等 边 三 角形 的 顶点 ， 也 就 是 二 维 的 单纯 形 。 然 后 把 三 角 彤 以 具有 
最 大 函数 值 的 顶点 相对 的 一 边 为 轴 翻 转 。 这 给 出 一 个 新 的 顶点， 然后 使 用 这 个 三 角形 〈 由 
新 的 项 点 和 翻转 中 没有 移动 的 两 个 顶点 组 成 ) 重复 前 面 的 过 程 。 重 复 整 个 过 程 直到 发 生 
了 振荡 〔 三 角形 仅 是 以 同一 条 边 为 轴 来 回 摆动 )。 当 发 生 振荡 时 ， 把 三 角形 的 边 长 折 半 ， 
然后 再 继续 前 面 的 过 程 。 

人 们 已 经 以 各 种 不 同 的 方式 对 这 种 基本 的 单纯 形 搜索 方法 进行 了 扩展 。 例 如 ，Nelder 和 
Mead 变 体 不 仅 允许 三 角形 缩小 ， 而 且 允 许 增 大 ， 目 的 是 在 合适 的 条 件 下 加 速 运 动 。 有 证 据 
表明 尽管 这 种 方法 很 简单 ， 但 在 高 维 空间 中 它 的 性 能 可 与 前 面 描述 的 复杂 方法 相 比 。 此 外 ， 
这 种 方法 不 需要 计算 导数 (或 者 甚至 不 需要 存在 导数 )。 

一 种 有 关 的 被 称 为 模式 搜索 (pattem search) 的 搜索 方法 也 进行 一 种 局 部 搜索 来 决定 步 
进 的 方向 。 如 果 这 一 步 降 低 了 评分 函数 ， 那 么 就 增 大 这 一 步 的 步 长 。 如 果 这 一 步 的 效果 很 差 ， 
那么 就 减 小 步 长 〈 直 到 到 达 最 小 值 ， 搜 索 终止 )。( 这 里 模式 搜索 中 的 模式 一 词 与 本 书 前 面 讨 
论 的 数据 挖掘 中 的 模式 无 关 。) 


8.3.6 约束 优化 


很 多 优化 问题 中 包含 对 参数 的 约束 〈constraint)。 常 见 的 例子 包括 参数 是 概率 〈 约 束 参 
数 应 为 整数 且 汇 总 之 和 为 1) 的 问题 ;或 者 包含 方差 作为 参数 〈 一 定 要 为 正 数 ) 的 模型 。 约 
束 经 常 是 以 不 等 式 的 形式 出 现 的 ， 例 如 aeS Htc, 和 cs 是 常数 ， 但 也 有 更 复杂 的 约 
束 是 以 函数 表示 的 ， 例 如 g (6，…，6 ) 和 0。 偶 尔 约束 具有 等 式 的 形式 。 通 常 把 满足 约束 
的 参数 向 量 区 域 称 为 可 行 区 域 (feasible region). 

具有 线性 约束 和 凸 评分 函数 的 问题 可 以 用 数学 规划 (mathematical programming) 的 方法 
来 解决 。 例 如 ， 线 性 规划 (linear programming》 方 法 已 经 用 于 有 监督 的 分 类 问题 ， 二 次 规划 
(quadratic programming) 被 用 在 支持 向 量 机 (support vector machine) 中 。 评 分 函数 和 约束 
是 非 线 性 的 问题 具有 更 大 的 难度 。 

有 时 有 约束 的 问题 可 以 被 转化 成 无 约束 的 问题 。 例 如 ， 如 果 参 数 (6，…，68 .) 的 可 行 
区 域 被 限定 在 正 值 范围 内 ， 那 么 我 们 可 以 对 《〈 和 加，…， 各 ) 进行 优化 ， 其 中 8= 97, il, o 
d。 其 他 的 〈 更 为 复杂 的 ) 转换 可 以 去 除 ci 入 6 和 cz 形 式 的 约束 。 

一 种 去 除 相 等 约束 的 基本 策略 是 使 用 拉 格 朗 日 乘 子 (Lagrange multiplier). REAR 
数 S=S (0) 要 服从 约束 及 (6)=0, j=1,，…，m,， 那么 这 个 评分 函数 取 局 部 最 小 值 的 一 个 必 
要 条 件 是 对 于 某 个 标量 0，6 满足 VS(0)+ ,4jVhj(9)=0。 这 些 方程 和 约束 得 到 一 个 具有 
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(d+m) 个 〈 非 线性 ) 方程 的 联 立 方程 组 ， 这 个 方程 组 可 以 被 标准 的 方法 求解 (经 常 使 用 最 
小 平方 方法 使 (dtm) 个 方程 的 左边 的 平方 和 最 小 化 )。 可 以 把 这 些 思想 扩展 到 以 Kuhn-Tucker 
条 件 表 达 的 不 等 约束 (参见 补充 读物 )。 

可 以 修改 无 约束 的 优化 方法 使 其 适用 于 有 约束 的 情况 。 例 如 ， 可 以 向 评分 函数 加 入 惩罚 
项 以 便 在 优化 过 程 中 抵制 那些 靠近 可 行 区 域 边 界 的 参数 估计 。 


8.4 ”存在 残缺 数据 时 的 优化 ，EM 算法 


这 一 节 我 们 考虑 一 类 特殊 但 很 重要 的 问题 一 一 在 某 些 数据 残缺 的 情况 下 最 大 化 似 然 评 分 
函数 ， 也 就 是 说 ， 我 们 的 数据 集中 缺少 一 些 变量 某 些 情况 下 的 值 。 已 经 证 明 实 践 中 相当 数量 
的 问题 可 以 归 入 数据 残缺 问题 。 例 如 ， 在 关于 医疗 患者 的 测量 中 ， 对 于 每 一 个 患者 通常 仅 有 
一 部 分 化 验 结果 ， 或 者 在 申请 表 数 据 中 ， 对 某 些 问题 的 反应 依赖 于 对 其 他 问题 的 回答 。 

更 一 般 的 情况 是 ， 任 何 含有 隐 含 变量 〈 也 就 是 ， 不 能 直接 观察 到 的 变量 ) 的 模型 都 可 以 
被 归纳 为 数据 残缺 的 问题 ， 在 这 些 问 题 中 ， 这 个 变量 值 对 于 所 有 n 个 对 象 或 个 体 是 未 知 的 。 
聚 类 便 是 一 个 例子 ， 我 们 假定 存在 一 个 离散 值 的 隐藏 变量 C， 它 的 取 值 为 {c!，…，cx}， 聚 
类 的 目的 是 估计 出 每 一 个 观察 值 x (i) Ci Sin) 所 对 应 的 C 值 。 

期 望 最 大 化 〈Expectation-Maximization，EM) 算法 是 解决 数据 残缺 问题 的 一 种 出 色 算 
法 。 具 体 来 讲 ， 令 D = {x (1)，…，X (nm)} 为 n 个 观察 到 的 数据 向 量 。 设 H= {z (1),，…，z(n)} 
表示 隐藏 变量 Z 的 n 个 值 ， 与 观察 到 的 数据 点 DD 一 一 对 应 ;也 就 是 说 z 0 与 数据 点 x (i) 相 
联系 。 我 们 假定 D 是 离散 的 (这 不 是 必要 的 ， 只 是 为 了 我 们 描述 算法 的 方便 )， 这 样 我 们 便 
可 以 把 未 知 的 z (i) 值 想像 为 数据 的 不 可 见 分 类 〈( 育 类 ) 标签 。 

我 们 可 以 把 观察 到 数据 的 对 数 似 然 写 作 

1(0)= log p(D 18) = log >, p(D.H18) (8.15) 
chs ye RREI ARTT DLE TA TAR AAR ALU RNI ABLES, 
这 里 假定 了 一 个 以 未 知 参数 9 为 参量 的 概率 模型 p D, 有 H1 6)。 注 意 ， 我 们 这 里 的 优化 问题 


由 于 参数 9 和 隐藏 数据 H 二 者 都 是 未 知 的 而 变 得 加 倍 复杂 了 。 
OQ (A) 为 残缺 数据 H 的 任意 概率 分 布 。 我 们 可 以 用 以 下 方式 表示 似 然 : 


10) =log È, p(D, H 10) 
H 


p(D, H 10) 


=log > Q(H) 
之 Q(H) 


p(D, H 10) 
Q(H) 


= Qo p(D,H10)+ LOH sg 


> LOH log (8.16) 
a 

-Flo.g) 
其 中 的 不 等 式 是 根据 对 数 函 数 的 四 陷 性 〈 被 称 为 Jensen 不 等 式 ) 得 出 的 。 
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PREF CQ, D 是 我 们 要 最 大 化 的 函数 〔 似 然 1(0)) 的 下 限 。EM 算法 在 以 下 一 者 间 交 
H: 固定 参数 0 ， 使 F 相对 于 分 布 O 最 大 化 ; 固定 分 布 C=p H), 1E 屎 相对 于 参数 9 最 大 
化 。 其 体 地 说 : 


ER: QM! =argmax F(Q*,0*) (8.17) 


M 238: 9 和 =argmaxF(O ,9 ) (8.18) 


可 以 很 容易 地 证 明 在 三 步 又 中 当 C "=p CHD, 09 时 似 然 达到 最 大 值 ， 对 于 很 多 模 
型 可 以 有 相当 直接 的 方法 明确 地 计算 出 pH 1 D，9“)。 此 外 ， 对 于 这 个 8 值 不 等 式 变 成 了 
SERIO) =F CQ, 6"). 

在 M 步骤 中 ， 最 大 化 问题 简化 为 最 大 化 F 中 的 第 一 项 〈 因 为 第 一 项 不 依赖 于 9)， 因 此 
我 们 可 以 得 到 : 


O*=argmax >) p(H 1D,0" )log p(D, H 18") (8.19) 
H 


这 个 表达 式 也 经 常 可 以 幸运 的 得 到 闭合 形式 的 解 。 

显然 根据 定义 EE 和 M 步骤 在 每 一 步 中 不 会 降低 1(6): 在 M 步骤 的 开始 根据 定义 我 们 有 
1@%)=F(O™, @'), MALE) M 步骤 调整 6 来 使 最 大 化 。 

对 EM 步骤 有 一 个 简单 的 直观 解释 。 在 E 步骤 中 ， 我 们 以 参数 向 量 9“* 的 特定 设置 为 条 
件 估 计 隐 藏 变量 的 分 布 。 然 后 ,保持 O 函数 固定 , 在 M 步骤 中 我 们 选取 一 个 新 的 参数 集 6”， 
来 使 观察 到 数据 的 期 望 对 数 似 然 〈 相 对 = p CD 定义 的 期 望 ) 最 大 化 。 反 过 来 ， 我 们 可 
以 在 给 定 新 的 参数 9 *! 的 条 件 下 寻找 新 的 2 分 布 ， 然 后 再 一 次 应 用 M 步骤 得 到 98“ ， 并 以 
这 种 方式 迭代 下 去 。 正 如 上 面 所 简要 叙述 的 ， 每 一 次 应 用 E 和 M 步骤 都 保证 不 会 降低 观察 
到 数据 的 似 然 ， 而 且 这 反 过 来 也 意味 着 在 相当 普通 的 条 件 下 参数 9 会 至 少 收敛 到 对 数 似 然 函 
数 的 局 部 最 小 值 。 

要 确定 一 个 精确 的 算法 我 们 需要 取 一 个 初始 起 点 〈 例 如 ， 从 一 个 初始 的 随机 选取 的 Q 
或 6 值 开 始 ) 和 一 种 探测 收敛 的 方法 〈 例 如 ，Q，6 ， 或 1(9 ) 中 的 任 一 个 在 一 次 迁 代 后 和 上 
一 次 选 代 后 没有 明显 变化 )。EM 算法 本 质 上 与 多 元 参数 空间 中 的 局 部 候 山 形式 (在 本 章 前 
面 小 节 中 讨论 过 ) 很 相似 ，E 和 M 步骤 隐 含 《而 且 自 动 的 ) 确定 每 一 步 的 方向 和 距离 。 因 
th, AMG SRE, EM 算法 对 初始 条 件 是 敏感 的 ， 所 以 选取 不 同 的 初始 条 件 会 得 到 不 同 
的 局 部 最 大 值 。 正 因为 此 ， 实 践 中 从 不 同 的 起 始点 多 次 运行 EM 算法 是 明智 的 ， 这 样 可 以 降 
低 最 终 得 到 一 个 相当 差 的 局 部 最 大 值 的 可 能 性 。EM 算法 可 能 相当 慢 的 收敛 到 最 终 的 参数 值 ， 
所 以 〈 例 如 ) 可 以 把 它 与 传统 的 优化 技术 〈 比 如 Newton-Raphson〉 一 起 使 用 来 加 速 收敛。 
虽然 如 此 ， 标 准 的 EM 算法 因为 具有 宽广 的 适用 范围 和 可 以 相当 轻松 地 移植 到 各 种 不 同 的 问 
题 而 被 广 为 应 用 。 

EM 算法 的 计算 复杂 度 是 由 两 个 因素 共同 决定 的 : 收敛 所 需 迭 代 的 次 数 ， 每 一 个 王 和 M 
步骤 的 复杂 度 。 实 践 中 ， 经 常 发 现 当 EM 算法 接近 解 时 ， 它 收敛 得 相当 慢 ， 不 过 实际 的 收敛 
速度 依赖 于 很 多 不 同 的 因素 。 尽 管 如 此 ， 至 少 对 于 简单 的 模型 ， 该 算法 经 常 经 过 几 次 《比如 
5 或 10) 迭代 就 收敛 到 解 的 附近 。 每 次 迭代 中 E 和 M 步骤 的 复杂 度 依赖 于 被 匹配 到 数据 的 
模型 的 属性 〈 也 就 是 似 然 函 数 p D, H1O 的 特征 )。 对 于 很 多 简单 的 模型 《比如 下 面 讨论 





的 混合 模型 )，E 和 M ORR HERS n 是 线性 的 ， 也 就 是 每 一 次 迭代 仅 需 访问 每 个 数 

例 8.1 和 例 8.2 演示 了 EM 算法 的 应 用 ， 用 来 估计 正 态 混合 模型 和 泊 松 混合 模型 的 参数 ， 
测量 数据 x 是 一 维 的 。 每 一 种 情况 中 ， 假 定数 据 来 自 于 个 潜在 的 分 量 分 布 (分别 是 正 态 和 
泊 松 分 布 )。 然 而 ， 没 有 观察 到 分 量 的 标签 ， 因 此 我 们 不 知道 每 一 个 数据 点 来 自 哪 一 个 分 量 
分 布 。 我 们 将 在 第 9 章 中 更 详细 地 讨论 如 何 估计 这 些 类 型 的 混合 模型 。 


例 8.1 我 们 希望 拟 合 一 个 正 态 混 合 模型 





K 
f= Vg fy C Me Oe) (8.20) 
k=l 
其 中 ，j 是 第 上 个 分 量 的 均值 ，Gi 是 第 个 分 量 的 标准 差 ，h 是 数据 点 属于 分 量 上 
的 验 前 概率 KM = 1). 因此 对 于 这 个 问题 ， 参数 向 量 为 6= { Dis Hise oles Ope 
G0}。 假 定 如 果 此 时 我 们 知道 9 的 值 ， 那 么 ， 一 个 测量 向 量 为 x 的 对 象 来 自 第 个 分 
量 的 概率 为 : 


Ry fe (Xs Hg, Ok) 


P(k\ x)= (8.21) 
f(x) 
Hest, BATRA FSAI A, Ub 和 Gi: 
ty = 二 》 Êk) (8.22) 
n i=} 

fy = a ee | x(i))x(i) (8.23) 

a 1 %3 a: 
3; Ta, aP \ x(x - IDY (8.24) 


其 中 的 汇总 求 和 是 针对 数据 集中 的 n 个 数据 点 的 。 这 三 个 等 式 就 是 M 步 又。 这 一 
组 等 式 形成 了 一 种 明显 的 迁 代 关系 。 我 们 先 选取 到， 友和 ai 的 起 始 值 ， 然 后 代入 等 
式 8.21 得 到 估计 户 (KETx)， 然 后 在 等 式 8.22、8.23 和 8.24 中 使 用 这 一 组 估计 更 新 
丈 ， 上 到 和 ai， 然 后 再 返回 用 更 新 的 参数 进行 下 一 轮 和 迭代， 直到 收敛 判 据 〈 经 常 是 似 
然 的 收敛 或 模型 参数 达到 某 个 稳定 点 ) 得 到 满足 。 

注意 等 式 8.23 和 8.24 与 估计 单一 正 态 分 布 参数 时 的 对 应 形式 非常 相似 ， 唯 一 
的 差别 是 每 一 点 的 贡献 被 拆 分 到 各 个 分 量 ， 拆 分 的 比例 与 分 量 在 这 一 点 的 估计 大 小 
成 正比 。 从 本 质 上 讲 ， 这 就 是 根据 每 一 个 数据 点 属于 每 个 分 量 的 概率 进行 加 权 。 若 
是 我 们 真 的 知道 了 分 类 标签 ， 那 么 对 于 数据 点 x (i) 所 属 的 分 量 它 的 权 就 是 1， 对 
于 其 他 K-1 个 分 量 的 权 就 是 0。 
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例 8.2 可 以 用 泊 松 模型 来 对 个 体 事件 的 发 生 率 建 模 ， 例 如 ， 消 费 者 使 用 电话 
呼叫 卡 的 比率 。 对 于 某 些 卡 ， 可 能 有 多 个 个 体 〔 例如 一 个 家 庭 中 的 成 员 ) 使 用 同一 
账号 (具有 卡 的 拷贝 )， 因 此 理论 上 每 个 人 应 有 不 同 的 使 用 比例 ( 例如 ， 家 里 的 孩 
子 用 得 很 频繁 ， 父 亲 使 用 得 不 太 频 繁 ， 等 等 )， 于 是 对 于 天 个 个 体 ， 我 们 可 用 大 个 
泊 松 分 布 来 概括 观察 到 的 事件 数据 : 


K (A; yer 
‘(x)= — (8.25) 


用 来 迭代 估计 的 类 似 于 例 8.1 的 等 式 具 有 如 下 形式 : 


(A; yo em 
， Np 
Ry, P(x) tk) _ x(i)! 





P(kIx(i)) = = (8.26) 
EO Fi) FOO) 
o iġa 
一 一 P ; . 
Êr >> (k | x(i)) (8.27) 
人 lw. ass 
Àr E 之 外 | x(i))x(@i) (8.28) 


8.5 ”在线 和 单 扫描 算法 


到 目前 为 止 我 们 已 经 讨论 的 所 有 优化 方法 都 隐 含 的 假定 数据 全 都 驻 留 在 主 存储 器 中 ， 因 
此 在 搜索 的 过 程 中 可 以 很 容易 地 多 次 访问 数据 点 。 对 于 庞大 的 数据 集 我 们 可 能 对 至 多 仅 观察 
数据 点 一 次 的 搜索 和 优化 算法 感 兴趣 。 我 们 称 这 样 的 算法 为 在 线 (online) 或 单 扫 描 
(single-scan) 算法 ， 毫 无 疑问 当 我 们 面 对 的 是 驻 留 在 副 存 储 器 中 的 海量 数据 集 时 ， 这 样 的 
算法 要 优 于 “多 次 扫 找 〈multiple-pass)” 算 法 。 

一 般 而 言 ， 通 常 可 以 直接 对 上 面 讨 论 的 搜索 算法 进行 修改 ,使 其 一 个 一 个 地 处 理 数 据点 。 
例如 ， 考 虑 优化 参数 的 简单 梯度 下 降 方 法 。 正 如 前 面 所 讨论 的 ， 在 这 一 算法 的 “离线 ”( 或 
批 处 理 ) 版 本 中 ， 我 们 要 先 找 到 参数 空间 中 的 梯度 函数 g (6 )， 然 后 在 当前 位 置 9* 求 出 梯度 
的 值 ， 然 后 再 沿 这 个 方向 移动 一 步 。 既 然 沿 梯度 g (9 ) 的 方向 移动 仅 是 一 种 启发 ， 因 此 它 未 
必 是 最 佳 的 方向 。 实 践 中 ， 如 果 我 们 沿 一 个 近似 梯度 的 方向 移动 我 们 也 可 能 达到 同样 的 效果 
(至 少 对 于 运行 很 长 时 间 的 问题 是 这 样 的 )。 这 个 想法 应 用 在 实践 中 就 是 对 梯度 的 在 线 近似 
(online approximation)， 即 基于 当前 位 置 以 及 当前 的 和 《或 许 )“ 最 近 的 ”数据 点 估计 出 梯 
度 ， 并 在 算法 中 使 用 这 个 当前 的 最 佳 估计 。 可 以 把 在 线 估计 看 作对 批 处 理 算法 使 用 所 有 数据 
点 产生 的 完全 梯度 估计 的 随机 (stochastic) (或 者 “noisy”) 估计 。 在 统计 中 把 有 关 这 类 搜索 
技术 的 一 般 理 论 称 作 随机 近似 (stochastic approximation)， 但 这 超出 了 本 书 的 范围 ， 我 们 主 
要 讨论 的 是 在 线 参 数 估计 。 举 例 来 说 ， 在 使 用 梯度 下 降 来 寻找 神经 网 络 的 权 参 数 时 ， 已 经 发 
现 随 机 的 在 线 搜索 确实 在 实践 中 很 有 效 。 其 至 认为 搜索 的 随机 (数据 驱动 ) 特征 有 时 会 提高 
解 的 质量 ， 因 为 随机 性 使 搜索 算法 以 一 种 类 似 于 模拟 退火 (simulated annealing) (Jr [El ah E 
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讨论 ) 的 方式 逃离 局 部 最 小 值 ， 
更 一般 地 讲 ， 很 复杂 的 搜索 方法 〔 例 如 基于 Hessian 矩阵 的 多 元 方法 ) 也 可 以 被 实现 为 
在 线 的 方式 ， 只 要 为 所 需要 的 搜索 方向 和 步 长 恰当 地 定义 在 线 估计 量 。 


8.6 ”随机 搜索 和 优化 技术 


迄今 我 们 已 经 给 出 的 模型 搜索 和 参数 优化 方法 都 主要 依赖 于 在 当前 状态 附近 “ 贪 禁 ” 选 
取 下 -- 步 的 思想 。 这 里 的 主要 不 足 就 是 这 种 方法 存在 固有 的 “近视 ”性 。 解 的 质量 很 大 程度 
上 是 起 始点 的 函数 。 这 意味 着 ， 至 少 是 对 于 单一 起 始 位 置 的 情况 ， 发 现 的 最 小 值 (或 最 大 值 
有 不 是 全 局 最 优 值 的 风险 。 正 因为 此 ， 已 经 开发 了 很 多 方法 ， 这 些 方法 允许 从 当前 状态 以 一 
种 不 确定 的 (随机 的 ) 方式 步 进 很 远 ， 因 此 具有 更 大 的 全 局 性 。 下 面 每 一 种 方法 都 既 适 用 于 
参数 优化 ， 又 适用 于 模型 搜索 问题 。 但 为 了 描述 的 简单 我 们 这 里 仅 针 对 状态 空间 中 的 模型 搜 
索 问 题 进行 介绍 。 

@ 遗传 搜索 ,遗传 算法 是 基于 进化 生物 学 思想 的 一 类 通用 启发 式 搜索 技术 . 它 的 核心 

思想 是 把 状态 〈 即 我 们 所 说 的 模型 ) 表示 为 染色 体 (经 常 编码 为 二 进 制 串 ), 然后 “ 进 

化 ”这 样 的 染色 体 群体 (population)， 方 法 是 选择 性 的 配对 染色 体 以 产生 新 的 后 代 。 

染色 体 ( 状 态 ) 配对 的 根据 是 它们 的 “适应 度 (fitmess)”( 评 分 函数 的 分 数 )， 这 样 

做 的 目的 是 鼓励 更 高 适应 性 的 染色 体 在 一 代 代 的 更 新 中 生存 下 来 (在 一 代 到 下 一 代 

的 更 新 中 仅 允许 限制 数量 内 的 染色 体 生存 下 来 )。 基 于 这 个 一 般 特征 已 经 开发 出 了 很 

多 遗传 搜索 方法 的 变 体 ， 但 核心 的 思想 都 是 : 

一 一 维护 一 个 候选 状态 (染色体 ) 的 集合 ， 而 不 是 单一 的 状态 ， 这 样 便 可 以 使 算法 
同时 探索 状态 空间 的 不 同 部 分 。 

一 一 根据 存在 状态 的 组 合 来 产生 要 探索 的 新 状态 ， 这 样 做 的 效果 是 使 算法 可 以 “ 跳 
过 ”状态 空间 的 不 同 部 分 (与 我 们 前 面 讨论 的 局 部 改善 搜索 技术 形成 对 比 )。 

可 以 把 遗传 算法 看 作 启发 式 搜索 的 一 个 特例 ， 所 以 它 可 能 对 某 些 问题 工作 得 很 
好 ， 而 对 其 他 的 差 一 些 。 对 于 特定 的 问题 它 能 否 比 更 简单 的 方法 (例如 从 随机 点 重 
新 启动 的 局 部 迭代 提高 方法 ) 有 更 好 的 性 能 要 视 情况 而 定 。 实 践 中 这 种 方法 的 一 个 
不 足 是 通常 必须 确定 很 多 算法 参数 〔 比 如 染色 体 的 数量 ， 如 何 组 合 染 色 体 的 说 明 ， 
等 等 )， 而 且 可 能 不 清楚 对 于 给 定 的 问题 这 些 参数 的 理想 设置 是 什么 。 

o 模拟 退火 : 就 像 遗 传 算法 的 动机 来 自 进化 生物 学 一 样 ， 模拟 退火 (simulated annealing) 
方法 是 受 物理 学 中 的 思想 启发 的 。 这 种 方法 的 核心 思想 是 不 限制 搜索 算法 仅 能 向 使 
评分 函数 下 降 〈 对 于 我 们 要 最 小 化 的 评分 函数 ) 的 方向 移动 ， 也 就 是 说 允许 《以 某 
个 概率 ) 使 评分 函数 朝 上 升 的 方向 移动 。 原 则 上 ， 这 样 做 可 以 使 搜索 算法 逃离 局 部 
最 小 值 。 其 中 的 非 下 降 移动 概率 在 前 期 被 设置 得 相当 高 ， 随 着 搜索 的 继续 ， 这 个 概 
率 逐 渐 降低 。 这 种 概率 降低 过 程 类 似 于 在 退火 金属 的 物理 过 程 中 逐渐 降低 温度 已 得 
到 金属 内 部 的 低能 量 状态 〈 所 以 这 种 方法 叫 这 个 名 字 )。 

对 于 这 种 搜索 算法 来 说 ， 较 高 的 温度 对 应 于 一 个 在 参数 空间 中 大 幅 移 动 的 较 大 
概率 ， 而 较 低 的 温度 对 应 于 使 函数 下 降 的 较 小 移动 的 较 大 概率 。 最 终 ， 温度 调度 表 
(temperature schedule) 使 温度 降 为 0， 以 便 使 算法 仅 向 使 评分 函数 下 降 的 方向 移动 。 
因此 在 搜索 的 这 一 阶段 ， 算 法 必然 收敛 到 不 可 能 再 进一步 下 降 的 一 点 。 我 们 希望 较 
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早期 的 《随机 性 更 大 ) 移动 就 把 算法 带 进 评分 函数 曲面 的 最 深 “ 盆 地 ”。 事实 上 ， 对 
这 种 算法 的 一 种 不 满 是 尽管 可 以 数学 证 明 (在 相当 广泛 的 条 件 下 〉 如 果 使 用 了 适当 
的 温度 安排 表 那 么 刚才 的 希望 就 会 实现 。 但 是 在 实践 中 ， 通 常 没有 办 法 确定 对 任何 
特定 问题 都 适用 的 最 优 温度 安排 表 〈( 以 及 如 何 选择 非 下 降 移 动 的 精确 细节 )。 因 此 ， 
实践 应 用 中 的 模拟 退火 方法 常 “ 晓 变 ” 成 了 《〈 已 经 是 另 一 种 ) 一 种 特殊 的 启发 式 搜 
RE: 具有 自己 的 以 特别 方式 选取 算法 参数 。 

值得 注意 的 是 ， 随 机 搜索 的 思想 是 相当 广泛 的 ， 在 随机 搜索 中 ， 下 一 套 参 数 或 
模型 是 根据 邻近 状态 质量 的 条 件 〈 当 前 状态 ) 概率 分 布 而 随机 选取 的 。 通 过 以 随机 
方式 探索 状态 空间 ， 原 则 上 ， 算 法 可 以 把 更 多 的 时 间 (平均 来 看 ) 用 在 较 高 质量 的 
状态 上 ， 因 而 建立 起 关于 整个 状态 空间 的 质量 (或 评分 ) 函数 分 布 模型 。 这 种 通用 
的 方法 在 贝 叶 斯 统计 中 非常 流行 ， 像 Monte Carlo 马尔 可 夫 链 (Monte Carlo Markov 
Chain, MCMC) 这 样 的 技术 应 用 很 广 。 可 以 把 这 些 方法 看 作 是 对 基本 的 模拟 退火 思 


的 分 数 分 布 ， 用 这 些 参数 或 模型 对 给 定数 据 的 概率 加 权 ， 而 不 是 仅 寻 找 单 一 全 局 
小 值 〈 或 最 大 值 》 的 位 置 。 
模拟 退火 和 遗传 算法 这 样 的 方法 与 更 简单 的 方法 〈 比 如 带 有 随机 重新 启动 的 局 部 提高 迭 
代 方 法 ) 相 比 实际 效果 如 何 呢 ? 要 作出 关于 这 一 问题 的 一 般 结 论 是 困难 的 ， 尤 其 是 当 我 们 想 
把 算法 所 需 的 时 间 也 考虑 在 内 的 时 候 。 在 比较 不 同 的 搜索 算法 时 ,不 仅 应 该 看 最 终 解 的 质量 ， 
而 且 还 应 该 看 找到 解 所 花 的 计算 资源 ， 这 一 点 是 很 重要 的 。 毕 竟 ， 如 果 时 间 是 没有 限制 的 ， 
那么 我 们 始终 可 以 利用 穷 举 方式 枚 举 所 有 模型 来 找到 全 局 最 优 解 。 像 下 面 这 样 评价 是 公平 
的 ， 随 机 搜索 技术 通常 要 包括 值得 考虑 的 额外 计算 和 其 他 开销 《与 更 简单 的 其 他 方法 相 比 )， 
因此 ， 在 实践 中 ， 它 们 往往 被 用 在 涉及 相对 较 小 数据 集 的 特殊 问题 中 ， 从 计算 的 角度 来 看 对 
于 非常 庞大 的 数据 集 这 种 方法 经 常 是 不 可 行 的 。 


8.7 ”补充 读物 


Papadamitriou and Steiglitz (1982) 是 一 本 关于 组 合 优化 的 经 典 教材 。Cook et al. (1998) 
是 关于 这 一 主题 的 一 本 更 新 的 权威 教材 。Pearl (1984) 是 特别 针对 启发 式 搜索 这 一 主题 的 。 
Clark and Niblett (1989) 中 的 CN2 规则 发 现 算法 是 束 状 搜索 的 一 个 例子 。 

Press et al. (1988) 是 了 解数 值 优化 技术 的 一 个 很 好 起 点 ， 书 中 不 仅 有 一 般 性 的 介绍 ， 
还 包括 了 一 些 很 好 的 实践 建议 ， 特 别 是 第 9 和 第 10 章 。Gill，Murray and Wright (1981) 以 
及 Fletcher (1987) 也 是 专门 针对 优化 技术 的 ， 书 中 提供 了 大 量 实践 建议 以 及 具体 方法 的 很 
多 细节 。Luenberger (1984) 和 Nering and Tucker (1993) 讨论 了 线性 规划 和 有 关 约 束 优化 
技术 的 细节 。Mangasarian (1997) 介绍 了 约束 优化 技术 在 很 多 数据 挖 气 问 题 中 的 应 用 ， 包 
括 特 征 选取 、 聚 类 和 和 鲁 棱 模型 的 选择 等 。Bradley，Fayyad and Mangasarian (1999) 沿 这 一 
方向 作 了 进一步 的 讨论 。 

Thisted (1988) 是 一 本 关于 优化 和 搜索 方法 应 用 〈 特 别 是 对 统计 问题 的 应 用 ) 的 综合 参 
考 书 ， 非 常 有 价值 。Lange (1999) 是 关于 这 一 主题 〈 统 计 优化 的 数值 方法 ) 的 最 近 出 版 的 
教科 : 关 ， 书 中 包含 了 大 量 有 价值 的 技术 和 研究 成 果 。Bishop (1995， 第 7 章 ) 以 神经 网 络 的 
参数 估计 为 背景 广泛 的 讨论 了 优化 问题 ， 还 特别 说 明了 在 线 技 术 。 
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关于 EM ARWAH Dempster, Laird and Rubin (1977), ix -论文 最 早 建立 
了 这 一 过 程 的 一 般 理论 框架 。 在 这 篇 论文 之 前 关于 EM 一 - 般 概念 的 研究 已 经 进行 了 近 一 -个 世 
纪 ， 包 括 Newcomb (1886) 和 McKendrick (1926). Baum and Petrie (1966) 的 人 研究 是 EM 
算法 在 隐 马 尔 可 夫 模 型 框架 下 的 早期 发 展 成 果 。McLachlan and Krishnan (1998) 企 面 归纳 
了 EM 理论 和 应 用 的 很 多 最 新 成 果 。Meiljison (1989) 介绍 了 加 速 EM 收敛 的 通用 技术 , Lange 
(1995) 讨论 了 在 EM 框架 中 使 用 梯度 方法 的 技术 。Redner and Walker (1984) 讨论 了 在 混 
合 模型 中 使 用 EM 方法 涉及 的 大 量 计算 问题 。Neal and Hinton (1998) 讨论 了 EM 的 在 线 版 
本 ， 这 对 海量 数据 集 的 问题 特别 有 价值 。 

理论 上 可 以 把 回归 问题 中 的 在 线 学 习 看 作 Robbins and Monro (1951) 随机 近似 技术 的 
一 个 特例 一 一 Bishop (1995, 38 2 章 ) 在 神经 网 络 背 景 下 讨论 了 这 个 问题 。 

Mitchell (1997) 对 遗传 算法 的 思想 作 了 全 面 的 介绍 。Kirkpatrick，Gelatt and Vecchi (1983) 
介绍 了 模拟 退火 方法 ， 但 这 种 方法 起 源 于 很 早 的 统计 物理 著作 。Van Laarhoven and Aarts 
(1987) 纵览 了 这 一 领域 。Brooks and Morgan (1995) 对 模拟 退火 和 更 传统 的 优化 技术 〔 比 
如 基于 Newton 的 方法 ) 进行 了 系统 比较 ， 还 讨论 了 这 两 者 混合 (hybrid〉 的 方法 。 他 们 的 
结论 是 混合 方法 看 来 比 单独 的 方法 都 好 ， 不 论 是 传统 方法 ， 还 是 模拟 退火 方法 。Gilks， 
Richardson and Spiegelhalter (1996) 收录 了 统计 学 中 使 用 随机 搜索 (stochastic search， 不 在 
本 书 范围 之 中 ) 和 成 果 (主要 是 以 贝 叶 斯 思想 为 背景 )。 





BIS 描述 建 模 


9.1 简介 


在 前 向 的 章节 中 我 们 解释 了 模型 和 模式 这 两 个 术语 在 数据 挖 抉 中 的 含义 。 模 型 是 一 种 顶层 的 
描述 ， 概 括 并 描述 了 一 个 庞大 数据 集合 的 重要 特征 。 很 多 情况 下 模型 适用 于 测量 空间 中 的 所 有 点 ， 
从 这 个 意义 上 来 说 模型 是 全 局 性 的 。 相 反 ， 模 式 是 一 种 局 部 描述 ， 仅 适用 于 测量 空间 中 的 某 个 子 
集 ， 可 能 仅 描述 了 几 个 点 的 行为 或 者 刻画 了 数据 中 存在 的 异常 结构 。 例 如 密度 函数 的 最 频 值 〈 波 
峰 ) 或 散 点 图 中 的 少数 孤 江 点 。 

在 前 面 各 章 中 我 们 不 仅 分 析 了 模型 和 模式 的 差异 ， 还 分 析 了 描述 模型 和 预测 模型 间 的 差 
异 。 撕 述 模型 以 方便 的 形式 呈现 数据 的 主要 特征 。 它 实质 上 是 对 数据 的 概括 ， 使 我 们 可 以 看 
到 数据 的 最 重要 特征 ， 不 会 因 完 整数 据 集 的 绝对 容量 使 这 些 特征 变 得 模糊 不 清 。 相 对 而 言 ， 
预测 模型 的 目标 有 所 不 同 ， 其 目的 是 使 我 们 可 以 根据 观察 到 的 对 象 特征 值 来 预测 它 的 其 他 特 
征 值 。 

本 章 主要 讨论 描述 模型 ， 介 绍 在 数据 挖掘 中 用 来 寻找 描述 模型 的 几 种 重要 算法 。 第 10 
和 11 章 将 讨论 预测 模型 ， 第 13 章 将 讨论 描述 模式 。 

我 们 曾经 指出 数据 挖掘 所 关心 的 通常 是 如 何 建立 实验 模型 (empirical model) 一 一 这 些 
模 形 不 是 根据 数据 发 生机 制 的 某 些 内 在 理论 推导 出 的 ， 而 是 对 观察 到 数据 的 一 种 描述 。 数 据 
挖掘 的 根本 目标 是 探查 和 理解 数据 的 内 部 结构 ， 使 我 们 可 以 看 到 它 的 重要 特征 。 当 然 除 此 之 
外 ， 我 们 希望 发 现 未 知 的 以 及 从 某 种 意义 上 讲 有 价值 的 结构 。 一 个 好 的 模型 还 具有 再 生性 
( generative ) 一 一 根据 模型 产生 的 数据 与 用 以 产生 模型 的 真实 数据 具有 相同 的 特征 。 如 果 
这 种 生成 的 数据 具有 原始 数据 没有 的 特征 或 者 不 具有 原始 数据 应 有 的 特征 (例如 变量 间 的 相 
关 性 )， 那 么 这 便 不 是 一 个 好 的 模型 ， 它 没有 能 充分 地 概括 数据 。 

本 章 将 集中 讨论 拟 合 描述 模型 的 具体 技术 和 算法 。 这 是 以 前 面 各 章 介 绍 的 很 多 概念 为 基 
础 的 ， 比 如 不 确定 性 理论 〈 第 4 章 )， 把 数据 挖掘 算法 分 解 成 基本 的 组 件 〈 第 $ 章 )， 模 型 结 
构 、 评 分 函数 和 搜索 参数 与 模型 的 一 般 原理 〈 分 别 是 第 6、7 和 8 章 )。 

有 很 多 种 不 同类 型 的 描述 模型 ， 每 一 种 以 不 同 的 方式 和 其 他 的 相 联系 (有 些 模型 是 其 他 
模型 的 特例 或 者 推广 ， 有 些 模型 是 以 不 同 的 角度 观察 同一 结构 ， 等 等 )。 在 一 章 中 分 析 所 有 
类 型 的 模型 是 不 可 能 的 。 因 此 我 们 仅 讨 论 一 些 比较 重要 的 模型 类 型 ， 特 别 集中 在 密度 估计 和 
聚 类 分 析 上 。 其 他 的 描述 技术 《〈 例 如 structural equation modeling 和 因素 分 析 ) 请 读者 参考 相 
关 的 文献 。 

有 一 点 需要 说 明 。 因 为 本 章 所 关心 的 是 全 局 模型 一 代表 大 多 数 对 象 的 结构 ， 所 以 
我 们 不 必 担 心 没有 探测 到 少量 对 象 具 有 的 某 种 属性 ， 也 就 是 说 ， 在 这 一 章 中 我 们 不 讨论 
模式 的 问题 。 从 可 伸缩 性 的 角度 来 看 这 是 一 个 好 的 消息 ， 举 个 例子 来 说 ， 根 据 第 4 章 的 
讨论 ， 我 们 可 以 从 数据 集中 抽取 一 个 (随机 》 样 本 来 进行 分 析 ， 这 样 仍然 可 能 得 到 很 好 
的 结果 。 
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9.2 ”通过 概率 分 布 和 密度 描述 数据 


9.2.1 简介 


对 于 从 很 大 的 总 体 中 抽取 出 的 数据 ， 或 者 可 以 被 看 作 是 从 很 大 的 总 体 中 抽取 出 的 数据 
(例如 ， 因 为 测量 中 已 经 合 入 了 测量 误差 )， 通 过 潜在 分 布 或 密度 函数 来 描述 它们 是 一 种 
基本 的 描述 策略 。 如 果 采 用 第 4 章 所 用 的 p 维 数据 矩阵 表示 ， 那 么 对 于 变量 Xp eo X» 
我 们 的 目标 就 是 模拟 联合 分 布 或 密度 f (Xo to Xy) ATHE, RIER PRB OH 
统一 采用 “密度 (densities)” 这 个 术语 ， 但 这 种 思想 既 适 用 于 变量 X 连续 的 情况 ， 也 适用 
于 离散 的 情况 。 

从 某 种 意义 上 讲 联合 密度 提供 了 关于 变量 Xo eo X 的 全 部 信息 。 有 了 联合 密度 ， 我 们 
就 可 以 回答 有 关 变 量子 集 间 关系 的 任意 问题 ， 例 如 ，X 和 Xi 是 否 独立 ? 也 可 以 回答 给 定 其 他 
变量 后 某 一 变量 的 条 件 密 度 问 题 ， 例 如 ， 给 定 X KEN X 的 概率 分 布 f(%1xy) 是 什么 ? 

在 很 多 实际 情况 下 知道 联合 密度 是 很 有 用 的 也 是 我 们 所 希望 的 。 例 如 ， 我 们 可 能 对 密度 
(对 于 取 实 数值 的 X) 的 最 频 值 (modes) 感 兴趣 。 假 设 我 们 在 分 析 某 一 银行 个 客户 的 数 
据 集 中 的 两 个 变量 : income CKA) 和 spending 〈 信 用 卡 支 出 )。 对 于 很 大 的 nx， 在 散 点 图 
中 ， 我 们 可 能 仅 看 到 一 大 群 点 ， 而 且 有 很 多 重 倒 在 其 他 的 上 面 。 相 反 如 果 我 们 估计 出 联合 密 
RE f Cincome, spending) (我 们 还 没有 描述 如 何 做 到 这 一 点 )， 那 么 我 们 便 可 以 把 这 个 密度 
函数 画 成 一 幅 二 维 的 等 高 线 图 ， 或 者 把 密度 函数 作为 第 三 维 画 成 三 维 的 图 形 。 估 计 出 的 联合 
密度 可 以 揭示 很 多 有 用 的 信息 ， 包 括 数 据 中 潜在 的 结构 和 体现 的 模式 。 例 如 ， 密 度 函 数 波峰 
(最 频 值 ) 出 现 的 位 置 可 能 表明 那里 存在 着 子 客户 群 。 相 反 ， 间 隙 、 空 穴 或 波 谷 可 能 说 明 在 
对 应 这 些 区 域 这 个 银行 根本 没有 客户 。 从 密度 函数 的 总 体形 状 可 以 看 出 这 个 客户 群 的 收入 和 
支出 是 如 何 关联 的 。 

与 上 面 讲 的 大 不 相同 的 另 一 类 问题 是 生成 查询 庞大 数据 库 的 近似 结果 (又 被 称 为 查询 的 
选择 能 力 估 计 (query selectivity estimation))。 进 一 步 说 也 就 是 : 对 于 给 定 的 查询 (也 号 是 观 
察 记 录 必 须 满 足 的 条 件 )， 估 计 满 足 这 一 条 件 的 记录 行 的 比例 〈 即 查询 的 选择 能 力 )。 在 数据 
库 系 统 的 查询 优化 中 需要 这 样 的 估计 ， 而 且 项 查询 优化 任务 可 能 需要 上 百 次 这 样 的 估计 。 如 
果 我 们 有 了 对 数据 库 中 数据 的 联合 分 布 的 较 好 和 近似， 那么 我 们 就 可 以 使 用 它 得 到 近似 的 选择 
性 ， 大 大 地 提高 评估 的 计算 效率 。 

所 以 联合 密度 是 很 多 分 析 的 重要 基础 ， 我 们 必须 找到 很 好 的 方式 对 其 〈 或 者 它 的 主要 特 
征 ) 进行 估计 和 概括 。 

9.2.2 ”用 来 估计 概率 分 布 和 密度 的 评分 函数 

正如 我 们 在 前 面 章节 中 所 指出 的 ， 用 来 估计 概率 函数 参数 的 最 常见 评分 函数 是 似 然 〈 或 
者 是 经 过 单调 的 对 数 转换 后 的 对 数 似 然 ， 二 者 效果 是 等 价 的 )。 我 们 再 回忆 一 下 ， 如 果 随 机 
变量 X 的 概率 函数 是 / ; 69)， 其 中 9 是 需要 估计 的 参数 ， 那 么 对 数 似 然 是 logf (D1), 3 
中 DD= {x (1), x (n) }， 是 观察 到 的 数据 。 假 定数 据 和 矩阵 的 各 行 是 独立 的 ， 于 是 





Sr(9)=-》1log f(x(i);0) (9.1) 
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如 果 f 共有 一 种 简单 的 函数 形式 〈 例 如 ， 它 具有 附录 中 列 出 的 一 元 分 布 形式 )， 那 么 通常 可 
以 直接 最 小 化 这 个 评分 函数 ， 得 到 参数 6 的 闭合 形式 估计 量 。 然 而 ， 如 果 了 ERER, WA 
就 需要 使 用 递归 的 优化 方法 了 。 

尽管 似 然 是 一 种 很 重要 的 尺度 ， 但 它 并 不 足以 胜任 所 有 的 模型 评价 任务 。 尤 其 是 汉 比 较 
不 同 复杂 度 〈 例 如 ， 参 数 个 数 不 同 的 正 态 密度 ) 的 模型 时 ， 就 可 能 产生 问题 。 例 如 ， 对 于 一 
系列 相互 包含 的 模型 〈 较 高 层次 的 模型 包含 较 低 层次 的 模型 作为 特例 ) 来 说 ， 更 灵活 的 较 高 
层 模 型 总 会 有 较 大 的 似 然 。 这 不 足 为 奇 , 因为 似 然 评分 函数 是 衡量 模型 匹配 数据 好 坏 的 尺度 ， 
所 以 灵活 性 更 大 的 模型 拟 合 数据 的 能 力 必然 不 会 比 它 所 包含 的 灵活 性 低 的 模型 差 (通常 是 更 
好 )。 这 意味 着 ， 如 果 我 们 的 目的 是 对 一 个 完全 的 数据 总 体 进行 概括 时 ， 那 么 使 用 似 然 作为 
评分 函数 是 很 合适 的 《因为 我 们 的 目标 就 是 判断 简化 的 描述 和 原始 数据 间 拟 合 的 紧密 度 ); 
但 是 如 果 我 们 是 用 它 来 选择 一 个 适用 于 来 自 更 大 总 体 的 样本 的 单一 模型 〈 隐 含 的 目标 是 泛 化 
到 未 观察 到 的 数据 ) 时 ， 那 么 似 然 是 不 合适 的 。 在 后 一 种 情况 中 ， 我 们 可 以 通过 修改 似 然 使 [274 
其 考虑 模型 的 复杂 性 来 解决 这 个 问题 。 我 们 在 第 7 章 中 对 此 作 了 详细 的 讨论 ， 当 时 我 们 列 出 
了 几 种 评分 函数 ， 它 们 都 通过 向 似 然 中 加 入 额外 项 来 惩罚 复杂 的 模型 。 例 如 BIC〈 贝 叶 斯 信 
息 判 据 ，Bayesian Information Criterion) 评分 函数 是 这 样 定义 的 : 


Spic (M,) =2S, (ê, ; M,)+ dilogn, 1<k<K (9.2) 


其 中 ，d, 是 模型 M, 中 的 参数 个 数 ，S，(6, ; MD 是 负 对 数 似 然 的 最 小 化 值 〈 当 参 数 等 于 Gh 
时 得 到 此 最 小 值 )。 

还 有 另 一 种 方法 ,正如 第 7 章 所 讨论 的 , 我 们 可 以 使 用 一 个 独立 的 数据 样本 来 计算 分 数 ， 
这 样 便 得 到 了 一 种 “样本 外 【out-of-sample )” 评 佑 。 这 就 是 验证 对 数 似 然 (validation log- 
likelihood) (又 称 “holdout log-likelihood”)， 它 是 这 样 定义 的 : 

Sy, (Mò = 》 log fy, (x16), 1<k<K (9.3) 
xeD, 

其 中 点 x 来自 确认 数据 集 Do Ô 是 根据 不 相交 的 训练 数据 集 D, = DD, 估计 出 的 参数 《比如 
使 用 最 大 似 然 估 计 )， 被 评估 的 模型 总 数 为 天。 


923 ”参数 密度 模型 


我 们 在 第 6 章 里 指出 ， 可 以 把 密度 函数 的 模型 结构 分 为 两 大 类 : 参数 的 和 非 参数 的 。 参 
数 模型 (parametric model) 为 密度 函数 假定 一 个 特定 的 函数 形式 〈 通 常 比较 简单 )， 例 如 均 
名 分 布 、 正 态 分 布 、 指 数 分 布 、 泊 松 分 布 等 等 《参见 附录 A， 那 里 介绍 了 这 些 常 用 密度 分 布 
的 更 多 细节 )。 这 些 分 布 函数 大 多 是 受 数 据 产生 机 制 的 潜在 因果 模型 所 启发 的 。 那 么 如 何 选 
取 密 度 函 数 呢 ? 这 应 根据 被 观测 变量 的 知识 来 定 〈 例 如 ， 如 果 要 为 像 收 入 这 样 的 变量 选取 对 
其 建 模 的 分 布 ， 那 么 就 应 该 考虑 它 只 可 以 取 正 值 的 知识 )。 很 多 情况 下 ， 可 以 用 较 少数 量 的 
参数 来 刻 划 参数 模型 。 例 如 ，p 维 正 态 分 布 是 这 样 定义 的 ; 
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其 中 > 是 X 个 变量 的 pxp WA AIE, DEDNE, Whe XY p 维 均值 向 量 。 模 
形 的 参数 是 均值 向 量 和 协 方差 矩阵 〈 因 此 共有 ptp(pt+1)/2 个 参数 )。 

在 数据 分 析 中 多 元 正 态 〈 即 高 斯 ) 分 布 是 特别 重要 的 。 举 例 来 说 ， 根 据 中 心 极限 定理 ， 
在 相当 宽广 的 假定 下 ，N 个 独立 的 随机 变量 〈 每 一 个 可 以 服从 任意 的 分 布 ) 的 均值 趋向 于 服 
从 正 态 分 布 。 尽 管 表面 看 来 这 个 结论 是 逐步 通 近 的 〈asymptotic)， 但 即使 对 于 相当 小 的 N 值 
(比如 说 N=10) 样本 均值 通常 也 非常 接近 正 态 分 布 。 所 以 ， 如 果 可 以 把 一 个 测量 看 作 是 多 
个 相对 独立 的 过 程 得 到 的 汇总 结果 ， 那 么 正 态 模型 经 常 是 可 以 采用 的 合理 模型 。 

公式 9.4 中 的 多 元 正 态 模 型 的 函数 形式 并 非 像 看 起 来 那么 复杂 . 它 的 指数 Cx“) Or) 
是 一 个 标量 (二 次 形式 )， 被 称 为 数据 点 x POA RSE (Mahalanobis distance)， 表 
AAA 1S (X, [) © 这 是 对 标准 欧 氏 距离 的 推广 ， 当 计算 距离 时 考虑 了 维 空间 的 相关 性 《依靠 
WIZER) AR 9.4 的 分 母 就 是 一 个 进行 标准 化 的 常数 〈 称 为 C)， 用 来 保证 这 个 函数 
的 积分 为 1 〈 也 就 是 保证 它 是 一 个 真正 的 概率 密度 函数 )。 这 样 ， 我 们 就 可 以 用 以 下 更 加 简 
单 的 形式 来 表示 前 面 的 正 态 模型 : 


1 22 
f=ce ECG)? (9.5) 


要 是 我 们 能 够 画 出 〈 比 如 p=2 时 的 ) 具有 FEE rs (x, u) 值 的 所 有 点 ，( 或 等 价 的 ， 对 
于 某 个 参数 c， 画 出 在 f (x) = 的 密度 等 高 线 上 的 所 有 点 )， 那 么 我 们 会 发 现 这 些 点 描绘 出 
一 个 2 维 空间 中 的 椭圆 (更 一 般 地 讲 是 p 维 空间 中 的 超 椭 圆 )， 椭 圆 的 中 心 是 u。 也 就 是 说 ， 
描绘 多 元 正 态 分 布 的 等 高 线 是 椭圆 形 的 ， 到 中 心 的 高 度 按 及 (x,4) 的 指数 函数 下 降 。 图 9-1 
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位 矩阵 〈identity matrix) (所 有 变量 具有 同样 的 方差 并 且 不 相关 )， 那 么 等 高 线 是 圆 。 如 朵 
是 对 角 线 算 阵 (diagonal matrix)， 但 对 角 线 上 具有 不 同 的 方差 项 ， 那 么 椭圆 等 高 线 的 轴线 与 
变量 轴 平 行 ， 并 且 椭 圆 等 高 线 是 顺 着 有 较 大 方差 的 变量 轴 的 方向 伸展 的 。 最 后 ， 如 果 某 些 变 
量 是 高 度 相 关 的， 那么 椭圆 〈 或 超 椭圆 ) 等 高 线 将 沿 着 这 些 变量 的 线性 组 合 所 定义 的 向 量 方 
向 伸展 。 在 图 9-1 中 ， 变 量 X 和 X 是 高 度 相关 的 ， 因 此 数据 是 沿 X +X, 的 线性 组 合 所 定义 
的 方向 散布 的 。 

对 于 高 维 数据 (p 很 大 )， 正 态 模型 中 参数 的 数量 是 由 协 方差 矩阵 中 的 O (Cp? PDT eH 
支配 的 。 实 践 中 ， 我 们 可 能 不 想 要 对 所 有 这 么 多 协 方差 项 建 模 ， 因 为 对 于 很 大 的 和 有 限 的 
n( 现 有 数据 点 的 数量 ) 我 们 可 能 无 法 可 靠 地 估计 出 很 多 协 方差 项 。 例 如 ， 我 们 可 以 假定 变 
量 是 独立 的 ， 在 正 态 的 情况 下 这 等 价 于 假定 协 方差 矩阵 具有 对 和 角 线 结构 (所 以 仅 有 p TE 
数 )。( 注 意 如 果 我 们 假定 2 是 对 角 线 矩阵 ， 那 么 容易 得 出 p 维 多 元 正 态 密度 可 以 表示 为 p 个 
一 元 正 态 分 布 的 乘积 ， 这 也 是 p 个 变量 独立 的 充 要 条 件 。) 一 个 更 极端 的 假定 是 假定 = O77, 
其 中 了 是 单位 矩阵 一 一 也 就 是 说 ， 所 有 p 个 变量 不 仅 独 立 ， 而 且 具 有 一 致 的 方差 。 

独立 是 非常 严格 的 假定 。 一 个 帝 松 一 些 的 假定 是 ， 协 方差 算 阵 是 分 块 的 对 角 线 结构 ， 假 
定 存在 独立 的 变量 组 〈 块 )， 但 跨 组 的 变量 是 不 独立 的 。 通 常 可 以 作 各 种 可 能 的 假定 ， 因 此 
在 实践 中 对 假定 进行 检验 是 非常 重要 的 。 多 元 正 态 分 布 有 一 个 吸引 人 的 属性 : 对 于 给 定 的 两 
全 变量， 它们 条 件 独 立 的 充 要 条 件 是 它们 在 协 方差 矩阵 的 逆 矩 阵 中 的 对 应 元 素 为 0。 这 意味 
着 协 方差 矩阵 的 逆 Z 反映 了 变量 问 的 关系 模式 。( 或 者 ， 至 少 原 则 上 可 以 这 样 做 :有 必要 决 
定 协 方差 矩阵 的 着 阵 中 的 一 个 很 小 值 是 否 足 够 小 以 至 于 可 以 被 看 作 0。) 也 可 以 用 一 个 假想 
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的 图 形 模型 来 表示 这 种 情况 ， 在 这 个 模型 中 根本 不 存在 连接 对 应 于 这 个 道 协 方差 矩阵 中 的 很 
小 值 的 节点 的 边 〈 我 们 在 第 6 章 中 讨论 了 图 形 模型 )。 








0 1 2 3 4 5 6 


图 9-1 ”二 维 正 态 密度 函数 的 密度 等 高 线 示意 图 。 密 度 函 数 的 均值 为 3，3]; 协 方差 
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09 tof 图 中 还 画 出 了 根据 这 一 分 布 模拟 出 的 100 个 数据 点 


对 模型 中 所 作 的 假定 进行 检验 是 很 重要 的 。 经 常 可 以 使 用 某 些 统计 拟 合 度 (goodness- 
of-fit) 检验 ， 但 即便 是 简单 的 目测 也 可 能 看 出 问题 。 通 过 简单 的 直方 图 (或 第 3 章 列 出 的 其 
他 更 复杂 版 本 ) 可 以 立即 看 出 容许 范围 的 不 当 《〈 例 如 ， 上 面 指出 的 income 应 为 非 负 值 )， 或 
缺乏 对 称 等 问题 。 如 果 假 定 是 不 合理 的 ， 那 么 可 以 分 析 对 原始 评分 函数 的 转换 是 否 合 适 。 但 
不 幸 的 是 ， 不 存在 一 种 一 成 不 变 的 简单 Chard-and-fast) 法 则 可 以 用 来 判断 一 个 假定 是 否 合 
理 。 微 小 的 背离 很 可 能 是 不 要 紧 的 一 一 但 这 要 看 具体 的 问题 。 这 就 是 数据 挖掘 的 艺术 性 。 在 
很 多 分 布 假定 被 推翻 的 情况 下 ， 我 们 仍 可 以 很 好 的 得 到 参数 的 合理 估计 ， 但 统计 检验 是 无 效 
的 。 例如 ,我 们 可 以 使 用 最 小 平方 评分 函数 硬性 拟 合 回 归 模 型 不管 误差 是 否 服从 正 态 分 布 ， 
但 对 估计 出 参数 的 假设 检验 很 可 能 是 不 准确 的 。 这 或 许 在 模型 建立 过 程 中 是 有 关系 的 一 一 有 
助 于 决定 是 否 该 包含 某 个 变量 一 一 但 这 可 能 并 不 影响 最 终 的 模型 。 如 果 最 终 的 模型 能 满足 它 
的 目标 〔 例 如， 回归 中 的 预测 精度 )， 那 么 就 可 以 采用 这 个 模型 了 。 

ME p 维 正 态 模 型 是 非常 简单 的 。 每 一 个 均值 和 方差 项 的 最 大 似 然 (或 贝 叶 斯 估计 可 
以 被 定义 为 闭合 的 形式 〈 如 第 4 章 所 讨论 的 )， 对 于 每 一 个 参数 仅 需 要 O(n) 步 ， 因 此 共和 需要 
O (np?) 步 。 其 他 著名 的 参数 模型 〈 例 如 附录 中 所 定义 的 ) 通常 也 具有 闭合 形式 的 解 ， 扫 描 
所 有 数据 一 次 就 可 以 得 到 这 些 解 。 

正 态 模型 结构 是 一 种 比较 简单 并 有 局 限 的 模型 。 它 是 单 峰 的 ， 而 且 关 于 椭圆 轴 对 称 。 完 
全 可 以 使 用 它 的 均值 向 量 和 协 方差 矩阵 来 定义 它 。 然 而 ， 这 也 决定 了 它 无 法 表达 非 线性 的 关 
系 ， 也 不 能 表示 任何 形式 的 多 峰 性 和 分 组 。 下 一 节 要 讨论 的 混合 模型 提供 了 一 种 对 多 峰 型 和 
分 组 建 模 的 灵活 框架 。 读 者 也 该 注意 到 尽管 正 态 模型 是 实践 中 应 用 最 广泛 的 参数 模型 ， 但 是 
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还 有 很 多 其 他 不 同 “ 形 状 ” 的 密度 函数 对 于 特定 的 应 用 是 很 有 价值 的 〈 例 如 ， 指 数 模 型 、 对 
数 正 态 、 泊 松 分 布 、『 分 布 〈the Gamma) 等 ， 有 兴趣 的 读者 可 以 参见 附录 )。 多 元 上 分 布 在 
形式 上 和 多 元 正 态 分 布 是 很 相似 的 ， 但 它 允 许 有 更 长 的 末端 ， 因 此 对 于 较 多 数据 出 现在 末端 
的 问题 它 比 正 态 模型 预测 性 能 更 好 。 


924 混合 分 布 和 密度 


在 第 6 章 中 我 们 看 到 了 可 以 把 简单 的 模型 进行 推广 以 实现 多 个 分 量 的 混合 (mixture) 
也 就 是 多 个 简单 分 布 的 线性 组 合 。 这 就 是 我 们 在 密度 建 模 中 要 讨论 的 下 一 个 内 容 ， 也 就 
是 把 参数 分 布 推广 到 这 些 函 数 的 加 权 线 性 组 合 ， 通 过 组 合 简单 的 模型 来 建立 更 复杂 的 密度 和 
分 布 模型 。 当 在 实践 中 我 们 不 确信 哪 一 种 参数 形式 合适 时 ， 混 合 模型 是 特别 有 用 的 《在 本 章 
的 后 面 我 们 会 看 到 应 用 在 聚 类 任务 中 的 混合 模型 )。 

在 实践 中 异 质 的 〈heterogeneous) 数据 集 是 非常 普遍 的 ， 也 就 是 说 数据 代表 了 多 个 不 
同 的 子 群体 或 小 组 ， 而 不 是 同 质 的 单一 一 组 。 对 于 特别 庞大 的 数据 集 异 质 性 更 加 普遍 ， 其 
中 不 同 的 分 组 数据 可 能 代表 不 同 的 内 在 现象 ， 而 这 些 又 被 收集 起 来 形成 一 个 大 的 数据 集 。 
为 了 说 明 这 一 点 ， 考 虑 第 3 章 的 图 3-1。 这 是 1996 年 持 某 一 种 信用 卡 的 客户 使 用 该 信用 卡 
在 超市 购物 周 数 的 直方 图 。 正 像 我 们 前 面 所 指出 的 ， 这 个 直方 图 看 起 来 是 双 峰 的 ， 一 个 较 
大 的 明显 的 波峰 在 左边 ， 另 一 个 较 小 的 不 过 可 能 很 重要 的 波峰 在 右边 。 初 看 起 来 ， 这 样 的 
数据 可 能 服从 泊 松 分 布 (尽管 上 边界 被 限定 为 52)， 但 是 从 末端 来 看 又 不 像 泊 松 分 布 而 且 
无 法 解释 右 侧 的 波峰 。 因 此 我 们 必须 使 用 更 复杂 更 灵活 的 模型 。 一 种 办 法 是 用 具有 两 个 分 
量 的 理论 分 布 来 概括 这 个 实验 分 布 。 可 能 存在 两 种 类 型 的 客户 : 一 种 是 不 太 在 超市 中 使 用 
信用 卡 的 ， 另 一 种 是 大 多 时 候 〈 周 ) 都 在 使 用 信用 卡 的 。 可 以 用 一 个 小 概率 的 泊 松 分 步 概 
括 第 一 种 人 。 而 第 二 种 人 可 以 用 一 个 反 向 的 泊 松 分 布 来 概括 ， 它 的 波峰 在 45 或 46 周 〈 波 
峰 的 位 置 是 拟 合 模型 到 数据 时 的 一 个 要 估计 的 参数 )。 这 样 得 到 了 一 个 如 下 形式 的 全 局 分 
布 : 





(Ay ype-x en 
(52 — x)! 


其 中 x 是 随机 变量 X 的 值 ， 取 值 为 0 到 52〈 指 出 一 个 人 一 年 中 有 多 少 周 在 超市 中 使 用 他 们 ] 
的 信用 卡 )， 和 >0， 和 >0 是 两 个 泊 松 模型 分 量 中 的 参数 。 这 里 z 是 一 个 人 属于 第 一 组 的 概率 ， 
TER KERA EA /x! 就 是 这 个 人 在 这 一 年 中 使 用 信用 卡 x 次 的 概率 。 类 似 的 ，1-z 是 
这 个 人 属于 第 二 组 的 概率 ， 表达 式 122 te /(52 一 x)! 就 是 这 个 人 在 这 一 年 中 使 用 信用 卡 x 
次 的 条 件 概率 。 

思考 这 种 模型 的 一 种 方法 是 分 两 步 考虑 一 个 特定 个 体 的 行为 过 程 。 在 第 一 步 中 ， 个 体 有 
A (或 1-x) 的 概率 属于 一 组 或 另 一 组 。 在 第 二 步 中 再 考虑 观察 值 x 是 根据 他 或 她 在 第 一 步 
中 所 属 的 分 量 分 布 产生 的 。 

公式 9-6 是 有 限 混 合 分 布 finite mixture distribution) 的 一 个 例子 ， 在 这 个 分 布 中 总 体 
模型 fo) 是 有 限 数量 〈 这 里 是 两 个 ) 的 分 量 分 布 的 加 权 线 性 组 合 。 显 然 ， 这 个 混合 模型 比 
单一 的 泊 松 分 布 上 共有 更 高 的 灵活 性 至 少 它 包 含 了 三 个 参数 ， 而 不 是 只 有 一 个 。 然 而 ， 这 
个 模型 是 基于 一 定 猜测 的 ， 所 以 得 到 的 可 能 也 只 是 对 潜在 数据 的 一 种 更 接近 的 描述 。 这 两 个 


x -A 
Ayre” (9.6) 
x! 


f(xy)=2 +(1-7) 





一 rat 


ae ot Æ I 179 





方面 一 一 较 多 数量 参数 所 带 来 的 额外 灵活 性 和 建立 在 潜在 总 体 异 质 性 猜测 之 上 的 论据 一 一 意 
味 着 混合 模型 广泛 地 应 用 于 单一 标准 形式 难以 胜任 的 复杂 分 布 建 模 中 。 
混合 分 布 《 对 多 元 的 x) 的 一 般 形 式 为 : 





K 
FO) = Y trf) (9.7) 
k=l 
Kp a, 是 一 个 观察 值 来 自 第 k 个 分 量 的 概率 ( 即 所 谓 的 第 & 项 混合 比例 (mixing proportion) 
又 被 称 为 权 )，K ETERO fi 00) 是 第 上 个 分 量 分 布 ，0, 是 描述 第 上 个 分 量 的 参数 向 量 
(在 泊 松 分 布 混合 模型 的 例子 中 ，9, 就 是 单一 的 参数 入 )。 在 大 多 数 应 用 中 分 量 分 布 有 具有 
统一 的 形式 ， 不 过 也 有 例外 。 应 用 最 广 的 混合 分 布 形式 是 使 用 正 态 分 量 。 注 意 混 合 比例 太 必 
须 在 0 和 1 之 间 并 且 相 加 之 和 为 1。 
根据 理论 研究 ， 可 以 认为 符合 混合 分 布 的 实际 例子 包括 鱼 的 长 度 分 布 〈 因 为 它们 在 每 年 
的 确定 时 间 孵 化 )， 失 败 数据 〈 存 在 不 同 的 失败 原因 ， 每 一 个 原因 导致 一 种 失败 次 数 分 布 )， 
死亡 时 间 ， 和 不 同人 群 的 特征 分 布 〈 比 如 男人 和 女人 的 身高 )。 


9.2.5 ”混合 模型 的 EM 算法 


和 本 章 前 面 讨论 的 简单 参数 模型 的 情况 不 同 , 对 于 给 定 一 个 数据 集 DE (x1) x(n}, 
当 潜 在 模型 是 混合 模型 时 通常 不 存在 可 以 直接 最 大 化 似 然 评分 函数 的 闭合 形式 的 技术 。 通 
过 列 出 混合 模型 的 对 数 似 然 就 可 以 很 容易 的 看 出 这 一 点 : 我 们 得 到 的 是 类 似 log (Lim 
(x;Q.)〉》 形 式 的 多 项 和 ， 这 是 一 种 非 线 性 的 优化 问题 (并 不 像 多 元 正 态 模型 那样 存在 闭合 
形式 解 )。 

近年 来 ， 已 经 应 用 了 很 多 方法 来 估计 一 个 给 定 混 合 形式 的 混合 分 布 参数 。 这 其 中 一 种 
应 用 最 广 的 现代 方法 就 是 EM 方法 。 正 如 第 8 章 所 讨论 的 ， 可 以 把 这 种 方法 看 作 是 一 种 通 
用 的 迭代 优化 算法 ， 对 于 给 定 的 概率 模型 和 有 残缺 值 的 数据 ， 可 以 使 用 该 算法 最 大 化 似 然 
评分 函数 。 对 于 现在 的 情况 ， 可 以 把 混合 模型 看 作 是 一 种 分 类 标签 残缺 的 分 布 。 如 果 我 们 
知道 这 些 标签 ， 那 么 就 可 以 通过 把 数据 点 划分 到 它们 各 自 的 小 组 来 得 到 每 一 个 分 量 的 闭合 
形式 估计 。 然 而 ， 既 然 我 们 不 知道 每 个 数据 点 的 由 来 ， 我 们 必须 想 办 法 同时 分 析 一 个 数据 
点 来 源 于 哪 一 个 分 量 和 这 些 分 量 的 参数 。EM 算法 可 以 干净 利落 地 解决 这 个 “ 先 有 鸡 还 是 
先 有 蛋 ” 的 问题 : 它 先 猜想 每 个 分 量 的 参数 值 ， 然 后 计算 每 一 个 数据 点 来 自 及 个 分 量 中 的 
一 个 的 概率 (这 一 步 被 称 为 “E 步骤 少 ， 再 根据 得 出 的 这 些 隶 属 关系 概率 计算 每 一 个 分 量 
的 参数 (这 一 步 被 称 为 “M 步骤 ”， 而 且 通 常 是 以 闭合 形式 求 出 的 )， 而 后 再 重新 计算 隶属 
关系 概率 ， 并 以 这 种 方式 继续 下 去 ， 直 到 这 个 似 然 收敛 。 正 如 第 8 章 所 讨论 的 ， 尽 管 这 一 
算法 看 起 来 是 试探 性 的 ， 但 已 经 证 明 在 每 一 步 的 EM 过 程 中 似 然 都 只 会 增 大 ， 因 此 可 以 保 
证 《在 相当 宽广 的 条 件 下 ) 这 种 方法 会 收 伍 ， 至 少 会 收敛 在 似 然 〈 关 于 参数 空间 的 函数 ) 
的 局 部 最 大 值 。 

EM SEH SARE RFI ERA M 步骤 的 复杂 度 。 对 于 含有 天 个 分 量 
的 多 元 正 态 混合 模型 ， 主 要 的 计算 是 在 每 一 次 迭代 的 M 步骤 中 的 K 个 协 方差 矩阵 的 运算 。 
在 p HEI, HT OK MRK, BG 0 (Kp?) 个 协 方差 参数 ， 而 且 对 每 一 个 参数 需要 对 n 
个 数据 点 和 隶属 关系 权 进 行 汇总 ， 所 以 每 一 步 的 时 间 复 杂 度 为 O (Kpn)。 对 于 一 元 混合 模 
型 (就 像 上 面 所 介绍 的 泊 松 分 布 的 例子 )， 可 以 算出 其 时 间 复 杂 度 为 O (Kn)。 空 间 复杂 度 
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一 般 为 O (Kn)， 用 来 存储 个 数据 点 x(i) 中 每 一 个 的 隶属 关系 概率 向 量 〈 每 个 向 量 含 天 个 
分 量 )。 然 而 ， 对 于 很 大 的 p， 我 们 经 常 不 必 特 别 存 储 nk 个 隶属 关系 概率 的 和 矩阵， 因为 
我 们 可 以 在 每 一 次 的 M 步骤 中 通过 一 次 扫描 n 个 数据 点 来 增 量 (incrementally〉 计算 参数 
估计 。 

EM 算法 经 常 在 起 始 的 几 次 迭代 中 以 较 大 的 幅度 增长 似 然 ， 然 后 慢 慢 地 收敛 到 最 终 值 。 
SRT IR i BORE RA BBA EMT. Pd, E 9-2 画 出 了 对 数 似 然 相 对 于 EM 
算法 迁 代 次 数 的 函数 曲线 〈 从 中 可 以 看 出 EM 算法 的 收敛 性 )， 对 应 的 问题 是 用 高 斯 混合 模 
型 来 拟 合 二 维 医疗 数据 集 (我 们 会 在 9.6 节 中 更 详细 的 讨论 这 个 数据 集 )。 对 于 很 多 数据 集 
和 模型 我 们 经 常 可 以 仅 用 5 到 20 步 迁 代 就 得 到 可 接受 的 解 。 当 然 EM 算法 所 给 出 的 每 个 解 
都 是 关于 搜索 起 始点 的 函数 〈 因 为 EM 是 一 个 局 部 搜索 算法 )， 因 此 ， 从 随机 选取 的 起 点 多 
次 重新 启动 算法 是 一 个 好 的 主意 ， 这 样 可 以 避免 最 终 得 到 一 个 很 差 的 局 部 最 大 值 。 注 意 无 论 
是 KK 或 p〈 还 是 全 部 ) 增 大 ， 似 然 局 部 最 大 值 的 数值 也 会 随 着 参数 空间 的 维度 变化 而 相应 明 
显 增 大 。 


在 每 一 次 迭代 中 数据 的 对 数 似 然 
> 
a 
© 











5 10 15 20 25 30 
EM 和 迭代 次 数 


图 9-2 ”血红 细胞 数据 的 对 数 似 然 相对 于 迭代 次 数 的 函数 曲线 。 
使 用 的 模型 是 两 分 量 正 态 混合 模型 〈 参 见 图 9-11) 


在 使 用 最 大 似 然 方法 估计 混合 分 布 时 ， 需 要 注意 一 些 特殊 情况 。 例 如 ， 在 正 态 混合 模型 
中 ， 如 果 一 个 分 量 的 均值 与 一 个 样本 点 相等 ， 并 且 它 的 标准 差 趋 向 于 零 ， 那 么 似 然 会 无 限 地 
增长 。 而 在 这 种 情况 下 最 大 似 然 解 很 可 能 是 有 限 值 的 。 有 很 多 方法 可 以 用 来 解决 这 个 问题 。 
可 以 选取 似 然 的 最 大 有 限 值 来 给 出 被 估计 的 参数 值 。 另 外 ， 如 果 限 制 标准 差 相 等 ， 那 么 这 个 
问题 也 不 会 发 生 。 一 种 更 通用 的 方案 是 使 用 贝 叶 斯 方法 来 处 理 这 个 问题 ， 取 关于 参数 的 先 验 ， 
并 且 不 再 最 大 化 似 然 , 而 是 最 大 化 MAP 评分 函数 .这样 先 验 提 供 了 一 个 框架 使 评分 函数 (MAP 
评分 函数 ) 远离 参数 空间 中 有 问题 的 区 域 。 注 意 可 以 很 容易 地 把 EM 算法 从 最 大 化 似 然 推广 
到 最 大 化 MAP (例如 ， 把 M 步骤 替换 为 MAP 步骤 ， 依 次 类 推 )。 

可 能 发 生 的 另 一 个 问题 是 由 于 混合 分 布 缺乏 可 识别 性 〈identifiability ) 造成 的 。 如 果 一 
族 混合 分 布 满 足以 下 的 充 要 条 件 ， 那 么 我 们 就 说 它 是 可 识别 的 。 即 当 且 仅 当 这 一 族 中 的 两 个 
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成 员 相等 : 


Sit £50.) = > rfe) (9.8) 
k=l j=l 
这 意味 着 c = c"， 并 且 对 于 所 有 的 上 存在 某 个 六 使 入 = a 和 6x= 07。 如 果 一 族 分 布 是 不 
可 识别 的 ， 那 么 就 无 法 区 分 它 的 两 个 不 同 成 员 ， 这 会 导致 估计 中 出 现 问题 。 
对 于 离散 分 布 不 可 识别 Cnonidentifiability) 的 问题 可 能 比 连 续 的 情况 更 严重 ， 因 为 对 于 
m 个 类 目 ， 仅 可 以 建立 m-1 个 独立 的 等 式 。 例 如 ， 对 于 几 个 伯 努 利 分 量 混合 的 情况 ， 在 数 
据 中 仅 存 在 一 条 有 用 的 信息 ， 也 就 是 数据 中 1 发 生 的 比例 。 因 此 ， 没 有 办 法 估计 分 别 属于 每 
一 个 伯 努 利 分 量 的 比例 ， 因 此 也 就 无 法 估计 这 些 分 量 的 参数 。 


9.2.6 ” 非 参数 的 密度 估计 


第 3 章 中 我 们 简要 地 介绍 了 通过 取 感 兴趣 点 周围 的 x 测量 值 的 局 部 加 权 平 均 来 估计 密度 
函数 的 思想 〈 即 所 谓 的 “ 核 密度 (kermel density)” 方 法 )。 例 如 ， 直 方 图 是 这 种 思想 的 一 个 主 
要 版 本 ， 我 们 只 要 数 出 落 入 特定 “ 柱 位 〈bin)” 的 点 数 。 我 们 对 密度 的 估计 就 是 给 定 柱 位 里 的 
点 数 ， 经 适当 的 缩放 。 用 直方 图 作 密 度 的 模型 结构 是 有 问题 的 ， 这 有 几 个 原因 。 首 先 即 使 是 
对 那些 确实 平滑 的 函数 ， 它 给 出 的 估计 也 是 不 平滑 的 ， 另 外 ， 没 有 一 种 明显 的 方法 来 选取 柱 
位 的 数量 、 位 置 和 宽度 。 而 且 当 我 们 从 一 维 的 直方 图 转 到 p 维 的 直方 图 时 这 些 问 题 会 变 得 进 
一 步 恶化 。 但 是 ， 对 于 很 大 的 数据 集 和 很 小 的 p 尤其 是 p=1 时 )， 柱 位 的 宽度 会 变 得 很 小 ， 
结果 得 到 的 密度 估计 可 能 还 是 比较 平滑 的 ， 而 且 对 柱 位 的 宽度 和 精确 位 置 是 不 敏感 的 。 对 于 
庞大 的 数据 集 ， 观 察 每 一 个 变量 的 柱状 图 总 是 一 个 好 的 注意 ， 因 为 直方 图 可 以 提供 丰富 的 信 
息 ， 比 如 孤立 点 、 多 峰 型 、 对 称 性 、 末 端 特征 等 等 (回忆 第 3 章 中 的 PIMA， 印 第 安 人 血压 数 
据 的 例子 ， 那 里 的 直方 图 清晰 地 指出 了 一 些 相当 值得 怀疑 的 血压 值 为 0 的 数据 )。 

一 种 更 通用 的 局 部 密度 模型 结构 是 把 任意 点 x 的 密度 定义 为 与 训练 数据 集中 所 有 点 的 加 
权 求 和 成 正比 ， 其 中 的 权 是 由 适当 选取 的 核 函 数 (kerel function) 所 定义 的 。 对 于 一 维 的 情 
BATE CHER 3 章 所 定义 的 ) 





x — x(i) 


1 n 
JOs Tm wi -«( | (9.9) 


其 中 f (x) 是 对 查询 点 x 的 核 密度 估计 ，K (1) BRR GUL EX: MRI, 
KO = 1-itl， 否 则 KK (1) =0)，h 是 核 的 带宽 (bandwidth). AMWAY, x 点 的 密度 与 在 x 点 
计算 出 的 权 成 正比 ， 而 这 个 权 又 依赖 于 训练 数据 中 的 n 个 点 和 x 的 接近 度 。 与 使 用 非 参数 
BS ES 6 章 中 讨论 的 ) 一 样 ， 这 里 并 没有 明确 的 定义 模型 ， 而 是 由 数据 和 核 函 数 隐 含 
决定 。 因 为 所 有 的 数据 点 是 保留 在 模型 中 的 ， 所 以 从 这 个 意义 上 来 讲 这 种 方法 是 一 种 基于 
记忆 的 方法 (memory-based)， 也 就 是 说 ， 没 有 进行 任何 概括 。 当 然 对 于 庞大 的 数据 集 从 
计算 和 存储 的 角度 来 看 这 种 方法 可 能 是 不 适用 的 。 

在 一 维 中 ， 核 函数 K 通常 被 选 为 一 个 平滑 的 积分 为 1 的 单 峰 函 数 〈 比 如 正 态 或 三 角形 
的 分 布 )， 精 确 的 形状 通常 不 是 很 关键 的 。 和 在 回归 中 一 样 ， 带 宽 h 起 到 了 决定 模型 平滑 程 
度 的 作用 。 如 果 h 比较 大 ， 那 么 核 比较 宽 ， 这 样 使 很 多 点 会 对 求 和 贡献 出 显著 的 权 ， 从 而 
使 密度 估计 很 平滑 。 如 果 h 比较 小 ， 那 么 核 估计 是 由 靠近 x 的 少数 点 所 决定 的 ， 这 样 使 密度 
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估计 对 局 部 数据 更 加 敏感 〈 看 起 来 更 加 长 而 尖 )。 实 践 中 为 h 估计 一 个 很 好 的 值 是 有 一 定 难 
度 的 。 不 存在 一 种 固定 方法 来 找到 普遍 适用 的 带宽 h。 基 于 交叉 验证 的 技术 有 时 是 有 效 的 ， 
但 是 通常 需要 复杂 的 计算 而 且 不 保证 总 是 可 靠 的 。 通 常 推荐 对 具体 情况 使 用 简单 的 “目测 ” 
来 检查 选取 的 产值 是 否 合理 。 

在 适当 的 假定 下 ， 这 些 核 模 型 具有 足够 的 灵活 性 来 到 近 任何 平滑 的 密度 函数 ， 如 果 选 取 
Mh 合适 那 会 更 好 。 然 而 ， 要 达到 这 种 近似 我 们 可 能 要 取 无 限 数 量 的 数据 点 ， 这 与 实践 中 我 
们 所 看 到 的 有 限 数据 集 的 现实 多 少 有 些 不 相符 。 尺 管 如 此 ， 核 模型 作为 一 种 决定 数据 结构 的 
可 视 化 方法 (比如 局 部 的 尖峰 或 空 阶 》 对 于 低 维 问题 是 非常 有 价值 的 ， 因 为 其 他 的 方法 可 能 
无 法 做 到 这 一 点 。 


例 9.1 图 9-3 中 画 出 了 对 乙醇 (ethanol (E)) 测量 结果 的 几 种 不 同 密度 估计 ， 
这 个 变量 是 取 自 一 个 包含 不 同 地 理 位 置 空气 污染 情况 测量 结果 的 数据 集 。 左 上 角 的 
EZRA Hee” MARR (至少 对 于 当前 选择 的 柱 位 宽度 和 位 置 来 说 是 这 
样 的 )、 带 宽 h=0.5 的 正 态 核 可 能 是 最 平滑 的 【右上 )。 相 反 ， 带 宽 h = 0.1 的 正 态 核 
估计 可 能 是 品 声 最 多 的 ( 右 下 )， 它 在 密度 中 引入 了 很 可 能 虚假 的 波形 。 电 =0.25 的 估 
计 (AF) 看 起 来 是 最 好 的 ， 而且 在 过 于 平滑 和 不 平滑 间 比 其 他 估计 作 了 更 好 的 折 
圳 。 从 这 幅 图 可 以 看 到 乙醇 的 测量 结果 具有 双 峰 特征 。 虽 然 可 视 化 观察 方法 对 于 交 
互 式 的 决定 带宽 是 有 价值 的 ， 但 是 这 种 方法 主要 适用 于 一 维和 二 维 问题 。 














0.5 
0 0.0 
050:0.55 0.60 0.65 0.70 0.75 0.80 0.85 0:00.95 1.00 1.05 1.10 1.15 1.20 1.25 02 04 06 08 10 12 14 16 
E E 
2.0 
1.5 
1.5 
1.0 
1.0 
0.5 
0.5 
0.0 0.0 . r 
0.3 0.5 0.7 0.9 1.1 1.3 L5 0.4 0.6 0.8 E 1.0 1.2 
E 


图 9-3 ”对 变量 ethanol (E) 的 密度 估计 。 图 中 分 别 使 用 了 柱 形 图 (左上 )， 和 三 个 
不 同 带 宽 的 高 斯 核 估计 : h=0.5( 右 上)，h=0.25 (AP), h=01 AF) 
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随 着 p 的 增长 核 模 型 密度 估计 会 而 面临 更 多 困难 。 首 先 ， 我 们 党 要 定义 一 个 p 维 的 核 函 
数 。 一 种 流行 的 做 法 是 把 p 维 核 了 消 数 定义 为 一 维 核 的 乘积 ， 每 个 一 维 核 有 自己 的 带宽 (每 一 
维 的 带宽 分 别 是 h，…，h,)， 这 样 使 参数 数量 与 维 数 呈 线性 关系 。 一 个 不 太 明 显 的 问题 是 
在 高 维 空间 中 点 相距 很 远 是 很 正常 的 (又 是 “维度 效应 ”)。 事 实 上 ， 如 果 要 保持 估计 的 误差 
不 随 维 数 的 增长 而 变化 ， 那 么 所 需 的 数据 点 数 是 随 p 指数 增长 的 。( 回 忆 第 6 章 中 的 例子 ， 
要 得 到 10 维 正 态 分 布 中 均值 的 可 靠 估计 需要 842 000 个 数据 点 。) 这 意味 着 实践 中 核 模型 确 
实 仅 对 低 维 问题 才 是 可 行 的 。 

对 于 庞大 的 数据 集 , 要 实现 核 模型 经 常 是 很 复杂 的 。 除非 核 函数 K (的 紧凑 性 (compact) 
非常 好 (也 就 是 , 在 1 的 某 个 有 限 范围 之 外 函数 值 都 为 0), 否则 要 计算 某 一 点 x 的 核 估 计 (x) 
就 要 对 数据 库 中 所 有 n 个 数据 点 的 贡献 进行 汇总 。 当 然 ， 在 实践 中 这 些 贡献 中 的 大 多 数 是 可 
以 忽略 的 (也 就 是 ， 大 多 数 是 位 于 核 的 末端 )， 因 此 有 很 多 方法 来 加 速 这 种 计算 。 尽 管 如 此 ， 
这 种 基于 记忆 的 表示 在 存 信和 计算 方面 都 是 比较 复杂 的 《〈 仅 计算 一 个 查询 数据 点 的 密度 所 需 
的 计算 量 就 可 能 是 O (n))。 


9.2.7 ”范畴 型 数据 的 联合 分 布 


我 们 在 第 6 章 中 讨论 了 为 多 元 范畴 型 〈categorical) 数据 建立 联合 分 布 的 问题 。 比 如 说 
如 果 我 们 有 p 个 变量 ， 每 一 个 可 以 取 m 个 值 ， 那 么 这 个 联合 分 布 需 要 人 确定 O (mw ) 个 不 同 的 
概率 。 这 种 指数 的 增长 会 导致 很 多 方面 的 问题 。 

第 一 个 问题 是 如 何 估计 这 人 么 大 数量 的 概率 。 举 例 来 说 ， 设 {p，…， Pa } 为 未 知 分 布 中 
的 所 有 联合 概率 项 ， 我 们 要 从 n 个 p 维 观察 值 的 数据 集中 估计 出 这 些 项 。 因 此 ， 我 们 可 以 想 
BA mw 个 不 同 的 “单元 格 (cell)”{cj，…，c,s}， 每 一 个 含有 n ARE, 1Si<m’. W 
果 样 本 是 来 自 p(x) 容 量 为 n 的 随机 样本 ， 那 么 可 以 将 落 入 单元 格 i 中 的 期 望 数 据点 数 写 为 
Epin] = np:。 假 定 〈 举 例 来 说 〉p(x) 是 近似 的 均匀 分 布 ( 也 就 是 ，pi~ Um), RWA 


Eylnil= 一 (9.10) 
m 





FE, WE n<05m’, MABAMABE BIR NBA A RT 0， 而 不 是 
接近 1。 而 且 ， 如 果 我 们 使 用 直接 的 频数 计数 〈 最 大 似 然 估计 一 一 见 第 4 章 ) 作为 估计 概率 
的 方法 ， 那 么 我 们 会 把 每 一 个 空 的 单元 格 估计 为 p=0， 不 管 实际 上 是 否 真 的 p=0。 注 意 如 
果 p(x) 是 不 均匀 的 分 布 ， 那 么 这 个 问题 会 更 严重 ， 因 为 会 有 更 多 单元 格 有 更 小 的 疡 〈 也 就 是 
落 入 任何 数据 的 机 会 更 小 )。 这 里 的 根本 问题 是 单元 格 数量 以 指数 mw 增长 。 对 于 p=20 的 二 
进 制 变量 (m=2) me =105。 如 果 变 量 数 加 倍 到 p = 40， 那 么 m =102。 比 如 说 ， 对 于 p=20 的 
情况 我 们 有 n 个 数据 点 ， 而 且 我 们 要 加 入 一 些 新 的 变量 但 要 保持 每 一 个 单元 格 中 的 期 望 数 据 
点 数量 不 变 。 如 果 我 们 要 再 加 入 20 个 变量 ， 那 么 数据 数 就 要 从 n 增长 到 ww=10sn， 成 百 万 倍 
的 增长 。 

第 二 个 实践 问题 是 即使 我 们 可 以 从 数据 中 估计 出 完全 的 联合 分 布 ， 那 么 要 直接 操作 这 个 
分 布 时 间 和 空间 上 都 是 指数 级 的 。 一 个 完全 的 联合 分 布 的 内 存 需求 为 O Ce )， 例 如 ， 对 于 一 
个 40 个 二 进 制 变量 的 完整 分 布 需要 存储 O (10" ) 个 实数 值 概 率 。 而 且 ， 很 多 使 用 这 一 分 布 
的 计算 的 计算 量 也 时 指数 增长 。 设 变量 为 {Xi,，…，%%}， 每 一 个 取 m 个 值 。 如 果 我 们 想 要 计 
算 任 一 个 单一 变量 多 的 边际 分 布 ， 我 们 就 要 这 样 计算 : 
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p(Xj)= > p(X1,...， Xj Xj X jbo Xp) (9.11) 


也 就 是 说 ， 要 对 分 布 中 的 所 有 其 他 变量 汇总 。 右 侧 的 求 和 包括 O Cm") 次 求 和 一 一 当 p=40， 
m=2 时 是 O(10”)。 显 然 这 种 操作 是 难以 处 理 的 ， 除 非 m 和 p 的 值 很 小 。 

可 行 的 做 法 是 我 们 仅 能 对 低 维 问题 使 用 完全 的 联合 分 布 。 而 且 尽 管 我 们 的 例子 是 对 范畴 
型 数据 的 ， 但 实质 上 对 于 排序 型 数据 〈ordered) 和 实数 值 数据 也 是 适用 的 。 

正 像 我 们 在 第 6 章 中 所 见 到 的 ， 克 服 这 种 维度 效应 的 一 种 关键 思想 是 从 分 布 的 结构 着 手 
一 一 例如 ， 假 定 各 个 变量 是 独立 的 ， 那 么 


P 
p(x) =p Co) =] [pj (9.12) 
j=l 
这 样 就 不 再 需要 O (me) 个 分 别 的 概率 。 而 仅 需 要 p AR” SAT pm)» o> ppl)» SEP 
的 每 一 个 可 以 用 m 个 数字 确定 ， 所 以 共有 mp 个 概率 。 当 然 ， 就 像 刚 才 所 强调 的 ， 独 立 只 是 
一 种 假定 ， 通 常 这 一 假定 对 于 大 多 数 现实 的 数据 挖 所 问题 是 过 强 的 (too strong). 
第 6 章 中 介绍 了 一 种 弱 一 些 的 假定 ， 即 假定 存在 一 个 隐藏 的 (“潜在 的 ”) ZEC, WK 
个 值 ， 而 且 测量 x 是 相对 给 定 的 C 条 件 独立 的 。 这 等 价 于 前 面 讨论 的 混合 分 布 ， 只 不 过 附 
带 了 一 个 额外 的 假定 ， 每 一 个 分 量 内 部 条 件 独立 ， 也 就 是 : 


K K P 
P(X) = 》 arp) Salles] (9.13) 
k=l k=l jel 


这 个 模型 的 每 一 个 分 量 需 要 mp 个 概率 ， 再 乘 上 天 个 分 量 ， 再 加 上 KSA RNA, -, 
Tyo RUE ERE K m Al p 线性 变化 的 ， 而 不 是 指数 。 可 以 再 次 使 用 EM 算法 来 估计 每 
一 个 分 量 py(x) 的 参数 (和 权 zxc )， 在 估计 中 利用 了 条 件 独 立 的 假定 。 理 解 这 种 “混合 独立 
模型 ”的 一 种 方式 是 ， 我 们 要 在 数据 中 发 现 K 个 不 同 的 分 组 ， 对 于 每 一 分 组 各 个 变量 至 少 
是 近似 条 件 独 立 的 。 事 实 上 , 给 定 一 个 固定 的 天 值 , EM 算法 会 尽 可 能 找到 个 分 量 分 布 (每 
一 个 都 具有 条 件 独立 的 形式 ) 使 数据 的 总 体 似 然 最 大 化 。 这 种 模型 在 对 庞大 又 很 稀疏 的 事务 
性 数据 集 或 表示 为 二 进 制 向 量 的 文本 文档 集合 建 模 中 是 非常 有 价值 的 。 如 何 找到 适当 的 K 
值 呢 ? 这 依赖 于 我 们 的 目标 : 从 描述 的 角度 看 ， 我 们 可 以 根据 我 们 要 匹配 的 模型 的 复杂 度 来 
调整 K。 注 意 ， 这 种 形式 的 模型 与 第 6 章 讨论 的 一 阶 “ 朴 素 ” 贝 叶 斯 模型 是 等 价 的 《在 第 10 
章 的 分 类 中 还 会 再 次 讨论 )， 只 不 过 这 里 的 分 类 变量 C 是 未 观察 到 的 ， 而 且 必须 要 从 数据 中 
学 习 。 在 这 一 章 的 后 面 我 们 也 将 看 到 这 也 为 聚 类 数据 提供 了 一 个 有 价值 的 基础 ， 在 那里 我 们 
把 每 一 个 分 量 pi (x) 解 释 为 一 个 聚 类 。 

一 种 多 少 有 些 不 同 的 建立 概率 分 布 结构 的 方法 是 以 通用 形式 对 条 件 独立 建 模 。 我 们 在 第 
6 章 中 介绍 了 这 种 方法 的 一 种 通用 框架 〈 称 为 信念 网 络 〈belief network)， 或 者 叫 ， 无 循环 有 
向 图 形 模型 acyclic directed graphical models))。 回 忆 这 种 模型 的 基本 公式 可 以 写 为 : 


p a 
p(x) =] [rc | pa(x;)) (9.14) 
jal 
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也 就 是 把 总 的 联合 分 布 因 式 分 解 为 多 个 条 件 分 布 的 乘积 。 实 际 上 ， 总 可 以 使 用 链 式 法 则 来 定 
义 这 样 的 因 式 分 解 式 ， 但 是 这 个 模型 的 威力 在 于 它 发 挥 了 当 依赖 性 很 弱 时 独立 假定 的 作用 。 
回忆 一 下 ， 在 图 型 表示 中 每 一 个 变量 是 与 图 中 的 一 个 节点 相 联 系 的 。 一 条 从 X 到 X 的 直接 
连 线 表 示 多 直接 依赖 于 Xo pa Q) 表示 从 变量 局 的 父 变量 集 pa (X) 取 的 值 。 图 中 的 连接 
ERIE BK p (x) 的 一 系列 条 件 独 立 关 系 。 这 些 独立 关系 可 以 归纳 为 给 定 X 的 父 结 点 的 
值 ，pa 〈X%)， 那 么 节点 总 与 图 中 非 马 后 代 的 所 有 变量 是 独立 的 。 

如 果 图 中 父 集合 的 大 小 与 p 相 比 很 小 ， 那 么 我 们 可 以 把 联合 分 布 表示 成 一 种 比 完整 模型 
简单 得 多 的 形式 。 在 这 一 背景 下 ， 独 立 模 型 对 应 于 根本 没有 连 线 的 图 ， 整 个 图 对 应 于 没有 任 
何 独立 假定 的 完全 分 布 。 另 一 种 著名 的 图 结构 是 马尔 可 夫 链 模型 ， 在 这 种 模型 中 变量 是 按 某 
种 方式 〈 例 如 ， 时 间 ) 排序 的 ， 而 且 变 量 XARF X%-。 因 此 每 一 个 变量 仅 与 其 他 两 个 变 
量 连接 ， 使 整个 图 是 各 个 节点 相连 成 的 一 条 直线 〈 参 见 第 6 章 图 6-7)。 

图 形 形 式 的 一 个 主要 吸引 人 之 处 是 ， 它 可 以 用 系统 的 数学 化 的 精确 语言 来 描述 和 交流 概 
率 分 布 中 的 独立 性 。 可 能 更 重要 的 一 点 是 它 还 为 处 理 联合 分 布 概率 的 计算 方法 提供 了 一 种 系 
统 框架 。 举 例 来 说 ， 如 果 图 是 单 连接 的 〈singly-connected)〈 也 就 是 ， 当 忽略 边 的 方向 性 时 ， 
图 根本 没有 循环 )， 那 么 就 可 以 指出 计算 任何 感 兴趣 的 边缘 或 条 件 概 率 的 时 间 复 杂 度 上 限 为 
pm, 其 中 p 是 变量 数 ，m 是 每 一 个 变量 的 取 值 个 数 〈 简 单 起 见 ， 假 定 所 有 变量 的 取 值 数 
都 是 一 样 的 )，d 是 图 中 最 大 父 集合 的 变量 数 。 例 如 ， 对 于 马尔 可 夫 链 模型 ，d=1， 于 是 得 到 
这 种 模型 的 复杂 度 为 O (pm? )。 对 于 有 循环 的 图 ， 等 价 的 复杂 度 上 限 为 pm, HP d' 是 等 
价 的 单 连接 图 〈 以 一 种 系统 方式 从 原始 图 得 到 的 ) 中 的 最 大 父 集合 大 小 。 

从 数据 挖掘 的 角度 来 看 ， 从 数据 中 学 习 图 形 模型 的 问题 可 以 分 为 两 类 : 给 定 图 形 模型 的 
结构 ， 学 习 它 的 参数 ， 第 二 种 是 同时 学 习 参 数 和 结构 ， 这 显然 更 为 复杂 。 注 意 对 于 范畴 型 数 
据 的 情况 ， 模 型 的 参数 就 是 每 一 个 变量 的 条 件 概 率 表 ，p (xj|pa(X)))，1<j<p。 

如 果 给 定 了 固定 的 图 形 模型 结构 ， 那 么 就 不 需要 进行 结构 搜索 ， 因 此 简单 的 最 大 似 然 和 
MAP 评分 函数 就 可 以 工作 的 很 好 了 。 如 果 没 有 任何 隐藏 变量 ， 那 么 学 习 问题 就 简化 为 给 定 
每 一 个 变量 的 pa X) 来 估计 它 的 条 件 概 率 表 : 不 论 是 使 用 最 大 似 然 还 是 MAP 这 都 简化 为 
简单 的 计数 问题 ( 见 第 4 章 )。 如 果 有 隐藏 变量 ， 并 假定 这 些 变量 在 图 中 的 连接 是 已 知 的 ， 
那么 也 可 以 在 相当 宽广 的 条 件 下 直接 使 用 EM 算法 (第 8 章 )。 剩 下 的 问题 就 是 欠 代 估计 条 
件 概率 表 ， 并 像 以 往 一 样 注意 初始 条 件 的 选取 和 收敛 的 检测 。 可 以 把 前 面 讨论 的 混合 模型 看 
作 具 有 单一 隐藏 变量 的 图 形 模型 。 可 以 把 隐 马 尔 可 夫 模 型 〈 比 如 在 语音 应 用 中 所 使 用 的 ) 看 
作 具 有 一 个 隐藏 变量 〈 该 变量 是 离散 的 并 且 依赖 于 时 间 ) 的 图 形 模型 。 

有 必要 强调 ， 如 果 我 们 预先 有 很 大 的 把 握 认为 某 一 图 形 模型 结构 会 适合 我 们 的 数据 挖掘 
问题 ， 那 么 通常 是 值得 利用 这 一 知识 的 〈 假 定 它 是 可 靠 的 )， 可 以 把 它 作为 一 个 固定 的 结构 ， 
也 可 以 作为 我 们 下 面 要 介绍 的 学 习 方 法 的 一 个 起 始 结构 。 

从 数据 中 学 习 有 向 图 形 模型 结构 已 经 成 为 最 近 研究 的 一 个 热点 课题 ， 而 且 也 已 经 开发 出 
了 针对 这 一 目标 的 很 多 算法 。 首 先 考 虑 学 习 无 隐藏 变量 的 结构 的 问题 。 通 常 评 分 函数 是 某 种 
形式 的 惩罚 似 然 ， 例如 BIC 评分 函数 〈 见 9.2.2 小 节 ) 应 用 得 非常 广泛 ， 因 为 它 易于 计算 。 
给 定 了 评分 函数 ， 问 题 便 简 化 为 在 图 空间 中 搜索 产生 最 大 分 数 的 图 结构 〈 带 有 估计 出 的 参 
数 )。 已 经 证 明 寻 找 最 大 分 数 的 一 般 性 问题 是 NP- 困 难 CNP-hard) 的 (似乎 数据 挖 扬中 的 大 
多 数 结构 寻找 问题 都 如 此 )。 因 此 ， 要 使 用 递归 的 局 部 搜索 方法 ， 从 菜 个 “ 先 验 ”结构 开始 
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(比如 空 的 图 )， 然 后 增加 或 删除 边 直到 不 可 能 再 对 评分 函数 作出 任何 局 部 改善 。 从 计算 的 
角度 来 看 一 个 有 价值 的 特征 是 : 因为 可 以 把 分 布 表 示 为 因 式 形式 (factored form) (HAR 
9.14)， 所 以 似 然 和 惩罚 项 也 可 以 被 加 入 到 图 形 结构 的 局 部 表达 式 中 例如 ， 仅 包含 X 和 
它 的 父 的 项 。 于 是 我 们 可 以 通过 局 部 计算 〈 因 为 修改 仅 影响 评分 函数 中 的 一 个 因子 ) 来 观察 
对 模型 的 局 部 修改 的 效果 。 

学 习 含 有 隐藏 变量 的 结构 还 是 一 个 在 研究 的 问题 , 显然 它 比 学 习 不 含 隐藏 变量 的 结构 (就 
已 经 是 NP- 困 难 的 ) 要 复杂 得 多 。EM 算法 也 是 适用 的 ， 但 这 种 搜索 问题 通常 是 非常 复杂 的 ， 
因为 有 太 多 的 不 同方 式 把 隐藏 变量 引入 多 元 模型 。 

对 数 线性 模型 (log-linear models) 族 是 对 无 回路 有 向 图 形 模型 的 进一步 推广 ， 这 种 模型 
用 更 一 般 的 形式 来 刻画 依赖 关系 。 对 这 类 模型 的 讨论 超出 了 本 书 的 范围 〈 补 充 读物 中 提供 了 
一 些 参考 资料 )。 马 尔 可 夫 随 机 场 (Markov random fields) 是 另 一 类 图 形 模型 ， 它 使 用 一 种 
无 向 图 来 表示 依赖 性 ， 也 就 是 表示 图 象 像素 间 的 关联 效应 。 这 些 随 机 场 模型 广泛 的 应 用 于 图 
像 分 析 和 空间 统计 学 中 ， 用 来 定义 栅 格 或 图 像 测 量 值 的 联合 分 布 。 





9.3” 聚 类 分 析 背 景 


现在 我 们 放下 对 概率 密度 和 分 布 模型 的 讨论 ， 转 向 另 一 种 与 描述 有 关 的 数据 挖掘 任务 
聚 类 分 析 , 也 就 是 把 一 个 数据 集 ( 通 常 是 多 元 的 ) 分 解 (decomposing ) 或 划分 (partitioning ) 
成 组 ， 使 同一 组 中 的 点 彼此 相似 ， 但 与 其 他 组 中 的 点 尽 可 能 不 同 。 尽 管 使 用 的 技术 经 常 是 相 
同 的 ， 但 是 我 们 还 应 该 把 两 种 不 同 的 目标 区 分 开 来 。 我 们 可 以 把 其 中 之 一 称 为 区 隔 
(segmentation) 或 细 分 〈dissection)， 它 的 目标 就 是 以 一 种 方便 的 方式 划分 数据 。 这 里 的 “ 方 
便 ” 可 能 代表 管理 上 的 方便 、 实 际 操作 上 的 方便 或 任何 其 他 方面 的 便利 。 例 如 ， 一 个 衬衫 生 
产 者 可 能 希望 仅 用 几 个 尺寸 和 体型 就 最 大 可 能 地 覆盖 男性 群体 。 他 可 能 要 选取 领口 大 小 、 胸 
围 、 辟 长 等 尺寸 ， 以 防止 有 人 找 不 到 适合 他 的 尺寸 。 要 实现 这 一 目的 ， 他 要 按 collar. chest, 
arm length 这 些 变量 把 男人 分 成 几 组 。 然 后 为 每 一 组 制造 一 种 尺寸 的 衬衫 。 

与 此 相反 ， 我 们 可 能 希望 了 解 样本 数据 是 否 存在 自然 的 子 类 。 例 如 ， 可 以 用 这 些 变量 来 
刻画 威士忌 酒 : color，nose，body，palate，finish， 并 且 我 们 想 看 一 看 它们 是 否 属 于 按 这 
些 变量 所 确定 的 各 个 类 中 。 这 里 我 们 不 是 为 了 实践 的 方便 来 划分 数据 ， 而 是 希望 发 现 样 本 和 
产生 样本 的 总 体 的 某 些 属性 一 一 事实 上 是 要 看 总 体 是 否 是 异 质 的 。 

严格 来 讲 ， 第 二 种 行为 是 聚 类 分 析 的 目标 一 一 分 析 数 据 是 否 属于 各 个 独立 的 分 组 ， 使 每 
一 组 中 的 成 员 彼此 相似 ， 但 与 其 他 组 中 的 成 员 不 同 。 然 而 ,“ 聚 类 分 析 ” 这 一 术语 也 经 常 泛 
指 区 隔 和 聚 类 分 析 问 题 二 者 中 的 任 一 种 〈 这 样 我 们 也 会 方便 一 些 )。 每 一 种 情况 的 目标 都 是 
把 数据 分 裂 成 多 个 类 ， 所 以 这 也 不 是 很 严重 的 误 用 。 可 以 这 样 解决 这 个 问题 ， 正 如 我 们 将 要 
看 到 的 ， 划 分 数据 的 不 同 算法 非常 多 ， 因 此 我 们 可 以 使 用 算法 来 称呼 问题 。 重 要 的 是 把 方法 
和 目标 相 匹配 。 这 样 不 论 我 们 怎么 称呼 这 种 行为 都 无 所 谓 。 


例 9.2 可 以 根据 信用 卡 持 有 者 如 何 使 用 信用 卡 来 把 他 们 分 成 多 个 子 类 ， 也 就 
是 他 们 用 信用 卡 购 买 了 什么 ， 花 了 多 少 钱 ， 用 卡 的 频繁 程度 如 何 ， 在 哪里 用 卡 ， 等 
等 。 标 识 出 卡 主 所 属 的 群体 对 于 市 场 营销 是 非常 有 价值 的 ， 这 样 就 可 以 向 卡 主 发 送 
他 们 感 兴趣 的 促销 资料 ( 这 显然 胸 有 利于 卡 主 ， 又 有 利于 公司 )。 事 实 上 ， 本 节 所 
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讨论 技术 的 一 个 主要 应 用 就 是 市 场 区 隔 (market segmentation )。 区 隔 的 方式 有 生活 
方式 、 以 前 的 购买 行为 、 人 口 统计 中 的 属性 或 其 他 特征 。 

连锁 店 或 许 希 望 知道 销路 相似 的 各 家 分 店 ( 根据 社区 环境 、 规 模 、 员 工 数量 、 与 其 
他 点 的 邻近 度 等 ) 是 否 有 相似 的 营业 额 和 取得 相似 的 利润 。 那 么 首先 要 做 的 就 是 根据 这 
些 变 量 划 分 市 场 ， 然 后 再 分 析 每 一 个 小 组 内 的 营业 额 分 布 。 

聚 类 分 析 已 经 用 于 精神 病 学 等 很 多 医疗 领域 ， 用 来 标识 混在 同一 诊断 下 的 不 同 
子 疾病 类 型 。 

生物 学 中 使 用 聚 类 分 析 方法 来 研究 表面 上 一 致 的 植物 和 动物 是 否 实际 上 属于 不 
同 的 种 类 。 类 似 的 , 可 以 根据 生存 在 那里 的 动 植物 种 类 来 把 各 个 地 理 区 域 划分 成 组 。 

为 了 举例 说 明 在 什么 情况 下 区 隔 和 聚 类 分 析 的 不 同 是 有 关系 的 ， 考 虑 一 个 对 城 
镇 中 的 房屋 进行 划分 的 例子 。 如 果 我 们 在 组 织 一 项 分 发 服务 ， 我 们 可 能 希望 按 位 置 
来 划分 ， 并 使 每 一 组 内 的 房屋 尽 可 能 地 靠近 ， 那 么 就 可 以 把 属于 同一 组 的 包 囊 放 到 
一 辆 分 发 车 上 。 另 一 方面 ， 一 个 生产 家 居 改 善 产品 的 公司 可 能 希望 按照 房屋 的 自然 
状况 来 划分 。 一 组 可 能 是 由 小 的 刚 组 建 的 家 庭 组 成 的 ， 另 一 组 可 能 是 拥有 三 到 四 个 
房间 的 家 庭 ， 还 有 一 组 是 ( 可 能 很 少 ) 高 级 公寓 。 


从 这 个 例子 可 以 清楚 看 出 这 两 种 方法 的 不 同 关键 是 在 距离 的 含义 上 。 因 为 如 果 要 把 一 系 
列 点 分 成 子 群体 ， 使 组 中 的 成 员 距 离 这 一 组 中 的 其 他 成 员 比 距离 其 他 组 里 的 成 员 更 近 ， 那 么 
我 们 必须 先 确定 “更 近 ” 的 含义 。 在 第 2 章 中 我 们 已 经 讨论 了 距离 的 概念 和 度量 它 的 不 同方 
法 。 那 里 描述 的 任 一 种 尺 记 ， 或 者 事实 上 是 任何 其 他 的 尺度 ， 都 可 以 用 作 聚 类 或 区 隔 分 析 的 
基础 。 对 这 两 种 技术 来 讲 ， 距 离 比 点 的 坐标 更 加 重要 。 原 则 上 ， 要 进行 聚 类 分 析 我 们 所 需要 
知道 的 就 是 点 之 间 的 距离 , 而 不 是 任 一 个 变量 的 值 。 但 是 ， 某 些 方法 要 使 用 聚 类 的 “中 心 点 ”， 
所 以 需要 原始 坐标 。 

聚 类 分 析 已 经 吸引 了 无 数 的 研究 者 为 之 努力 ， 这 可 以 追溯 到 几 个 时 代 以 前 ， 所 以 这 方面 
的 文献 很 多 ， 也 很 分 散 ， 相 当 一 部 分 被 归 入 统计 学 和 机 器 学 习 文 献 中 ， 但 也 可 以 在 其 他 地 方 
找到 关于 聚 类 分 析 的 著作 。 造 成 这 种 状况 的 一 个 原因 是 不 断 地 有 新 的 方法 被 开发 出 来 ， 有 时 
根本 没有 注意 到 这 种 方法 已 经 开发 出 来 了 。 更 严重 的 是 ， 很 多 方法 并 没有 正确 理解 聚 类 分 析 
的 特征 和 处 理 不 同类 型 数据 的 方式 。 造 成 这 一 问题 的 原因 之 -是 要 说 明 一 个 聚 类 分 析 是 否 成 
功 是 有 难度 的 。 和 预测 模型 不 同 ， 在 预测 模型 中 我 们 可 以 用 一 个 验证 数据 集 来 看 目标 变量 预 
测 值 的 精确 度 。 但 不 幸 的 是 ， 对 于 聚 类 问题 来 说 不 存在 泛 化 到 验证 数据 集 的 直接 概念 ， 虽 然 
后 面 我 们 会 看 到 在 某 些 条 件 下 的 概率 聚 类 〈 本 章 后 面 会 讨论 ) 中 可 以 提出 这 样 的 问题 ， 从 训 
练 数据 中 发 现 的 聚 类 结构 是 否 真正 体现 了 隐 含 总 体 的 特征 。 一 般 来 讲 ， 聚 类 的 验证 经 芝 是 通 
过 目测 来 完成 的 ， 例 如 ， 如 果 一 个 聚 类 揭示 出 了 一 个 有 趣 而 且 科 学 的 内 幕 《〈insight)， 那 么 
我 们 可 以 判定 它 是 有 价值 的 。 对 此 进行 精确 的 定量 分 析 即 便 可 能 ， 也 是 很 困难 的 ， 因 为 表示 
一 个 聚 类 的 有 趣 程度 难免 要 依赖 于 具体 应 用 ， 而 且 有 一 定 程度 的 主观 性 。 

正如 在 后 面 的 几 个 小 节 中 我 们 将 看 到 的 ， 不 同 的 聚 类 分 析 方 法 适用 于 探测 不 同类 型 的 聚 类 ， 
当 我 们 选择 算法 时 应 该 考虑 这 一 点 。 也 就 是 说 ， 我 们 应 该 考虑 我 们 赋予 或 想 赋 了 予 “ 聚 类 ”的 含义 。 
实际 上 ， 不 同 的 聚 类 算法 在 寻找 数据 中 不 同类 型 的 聚 类 结构 或 “形状 ”) 时 会 有 不 同 的 偏向 ， 而 
且 有 时 不 能 根据 聚 类 算法 的 描述 精确 定位 偏向 的 基体 细 古 。 

为 了 说 明 这 一 点 ， 我 们 考虑 聚 类 一 个 点 集 。 一 种 方法 是 使 聚 类 内 任何 两 点 问 的 距离 尽 可 
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能 的 小 ， 那 么 在 一 个 聚 类 内 每 个 点 与 其 他 任意 点 是 相似 的 。 于 是 我 们 会 选取 一 个 算法 来 划分 
数据 使 聚 类 内 的 点 间 最 大 距离 最 小 化 后面 有 更 多 介绍 )。 显 然 我 们 期 望 这 种 方法 产生 一 个 
紧凑 的 大 体 为 球形 的 聚 类 。 另 一 种 方法 是 使 聚 类 中 的 每 一 点 与 该 聚 类 中 的 某 一 其 他 成 员 尽 可 
能 地 近 一 一 不 必 与 所 有 其 他 成 员 。 这 种 方法 发 现 的 聚 类 不 一 定 是 紧凑 的 和 大 体 球 形 的 ， 而 可 
能 是 长 的 (不 一 定 是 直 的 ) 香肠 形状 。 第 一 种 方法 无 法 检 选 出 这 样 的 聚 类 ， 因 此 第 一 种 方法 
适合 于 区 隔 的 场合 。 如 果 每 个 假想 小 组 中 的 各 个 对 象 是 在 某 种 演进 过 程 的 不 同 阶段 测量 出 
的 ， 那 么 第 一 种 方法 更 合适 。 例 如 ， 在 对 患 某 一 疾病 的 人 进行 聚 类 分 析 以 寻找 这 种 疾病 的 不 
同 子 类 型 时 ， 我 们 应 该 考虑 到 患者 可 能 是 在 患 这 种 疾病 的 不 同 阶段 接受 检验 的 ， 因 此 即使 它 
们 属于 同一 子 类 型 它们 也 可 能 有 不 同 的 症状 。 

从 这 个 例子 要 吸取 的 最 重要 经 验 是 我 们 必须 保证 方法 和 目标 匹配 。 尤 其 是 ， 我 们 必须 明 
确 当前 问题 中 “ 聚 类 ”定义 的 含义 ， 然 后 采用 适合 于 探测 与 这 一 定义 一 致 的 聚 类 的 聚 类 分 析 
工具 。 可 能 还 值得 补充 一 点 ， 那 就 是 在 这 一 问题 上 我 们 不 应 该 太 自信 。 因 为 毕 竞 数据 挖掘 是 
要 发 现 未 知 的 信息 ， 所 以 我 们 一 定 不 能 武断 的 把 我 们 以 前 的 概念 强加 到 这 种 分 析 中 。 或 许 搜 
索 不 同类 型 的 诊 类 结构 就 会 推翻 我 们 以 前 的 看 法 。 

概括 地 讲 ， 我 们 可 以 把 聚 类 分 析 算 法 分 成 三 种 不 同 的 类 型 : 试图 找到 一 个 最 优 划分 以 把 
数据 分 成 指定 数量 聚 类 的 方法 ， 试 图 发 现 聚 类 结构 的 层次 方法 ， 对 潜在 聚 类 建 模 的 基于 概率 
模型 方法 。 我 们 在 接 下 来 的 三 个 小 节 中 依次 讨论 这 些 方 法 。 











9.4 基于 划分 的 聚 类 算法 


在 第 5 章 中 我 们 介绍 了 很 多 情况 下 可 以 按 五 个 部 分 来 考虑 数据 挖掘 算法 ， 也 就 是 任务 、 
模型 、 评 分 函数 、 搜 索 方法 和 数据 管理 技术 。 在 基于 划分 的 聚 类 中 ， 任 务 就 是 把 数据 集 划 分 
成 上 个 不 相交 的 点 集 ， 使 每 一 个 子 集中 的 点 尽 可 能 同 质 , 也 就 是 , 给 定 x 个 数据 点 的 集合 D = 
{x (1)，…，x (oO}， 我 们 的 任务 是 找到 天 个 聚 类 C={Cl，…，Cxk}， 使 每 一 个 点 x 四 被 分 配 
到 一 个 唯一 的 聚 类 Cro 

同 质 性 Chomogeneity) 是 这 样 实现 的 : 选取 适当 的 评分 函数 〈 下 面 将 要 讨论 ) 并 使 
每 一 点 到 它 所 属 聚 类 和 抢 心 〈centroid) 的 距离 最 小 化 。 基 于 划分 的 聚 类 方法 的 重点 就 是 评 
分 函数 ， 算 法 的 其 他 部 分 与 一 般 算 法 没有 太 大 的 不 同 。 大 多 数 情 况 下 ， 把 属于 一 个 聚 类 
的 各 个 点 的 和 矩 心 或 平均 值 作为 这 个 聚 类 的 代表 ， 而 且 对 被 寻找 聚 类 的 形状 没有 明确 的 要 
求 。 然 而 ， 对 于 每 个 聚 类 一 个 “中 心 ” 的 聚 类 表示 来 说 ， 聚 类 间 的 边界 是 隐 含 定义 的 。 
例如 ， 如 果 根 据点 x 与 聚 类 中 心 的 欧 氏 距离 来 分 配 它 ， 那 么 在 x 空间 中 聚 类 间 的 边界 是 
线性 的 ， 

我 们 会 看 到 在 聚 类 分 析 中 ， 最 大 化 〈 或 最 小 化 ) 评分 函数 通常 是 计算 复杂 度 很 高 的 搜 
索 问 题 ， 因 此 经 常 使 用 递归 的 启发 式 搜 索 方法 (比如 第 8 章 中 讨论 的 那些 方法 ) 来 优化 评 
分 函数 。 


9.4.1 基于 划分 聚 类 的 评分 函数 


人 们 使 用 了 大 量 的 不 同方 法 来 衡量 聚 类 的 质量 ， 也 开发 出 了 各 种 算法 来 搜索 最 优 的 《或 
至 少 是 好 的 ) 划分 。 
为 了 定义 聚 类 的 评分 函数 ， 我 们 需要 先 建立 输入 点 间距 离 的 概念 。 我 们 用 d (x, PET 
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mx ye DD 的 距离 ， 我 们 简便 地 假定 函数 d 是 定义 在 D 上 的 一 种 标 距 。 大 多 数 为 聚 类 目的 
所 设计 的 评分 函数 都 着 重 于 两 个 方面 : 每 个 聚 类 应 该 是 紧凑 的 ， 各 个 聚 类 间 的 距离 应 该 义 可 
能 地 远 。 实 现 这 种 直观 概念 的 一 种 直接 方法 就 是 观察 聚 类 C 的 聚 类 内 差异 (within cluster 
variation) we (C ) MRA (between cluster variation) pc(C)。 聚 类 内 差异 衡量 了 聚 类 
的 紧凑 性 或 密集 度 ， 而 聚 类 间 差 异 衡量 了 不 同 聚 类 间 的 距离 。 

假定 我 们 已 经 为 每 个 聚 类 选取 了 聚 类 中 心 (cluster center) ri。 它 可 能 是 指定 的 有 代表 
性 的 数据 点 x(i) e Ci， 按 某 种 方式 来 说 它 定 义 了 聚 类 的 中 心 。 如 果 输 入 点 所 属 空间 中 取 均 
值 是 有 意义 的 ， 那 么 我 们 可 以 把 聚 类 C 中 各 点 的 矩 心 作为 聚 类 的 中 心 ， 也 就 是 可 以 这 样 定 
X r;: 


r=} yx (9.15) 


其 中 用 是 第 上 个 聚 类 中 的 点 数 。 聚 类 内 差异 的 一 个 简单 尺度 是 看 聚 类 内 每 一 点 到 它 所 属 聚 类 
中 心 距离 的 平方 和 : 


K K 
we(C)= DwcC)= 3, >》 dear)? (9.16) 
k=l k=1x(ieC, 
当 dwry) 被 定义 为 欧 氏 距离 时 ，wc(O) 被 称 为 聚 类 内 平方 和 “within-cluster sum-of- 
squares )。 


可 以 把 聚 类 间 差 异 定义 为 诊 类 中 心间 的 距离 : 


b(C)= $, dej (9.17) 
ISj<kSK 

RK C 的 总 体质 量 可 被 定义 为 we(C) 和 bc(C) 的 单调 组 合 ， 比 如 二 者 的 比 pc(C)/mwc(C)。 

上 面 的 聚 类 内 尺度 从 某 种 意义 上 说 是 全 局 性 的 : 对 于 聚 类 Cl， 为 了 不 会 对 这 个 尺度 产 
生 大 的 贡献 ，Cx 的 所 有 点 必须 靠近 聚 类 中 心 。 因 此 使 用 这 种 衡量 聚 类 紧密 度 的 方法 得 到 的 育 
类 是 球形 的 。 下 一 小 节 要 讨论 的 著名 的 K- 均 值 算法 就 是 用 每 一 组 内 的 均值 作为 聚 类 中 心 并 
用 欧 氏 距离 定义 4， 通 过 使 公式 9.16 中 的 聚 类 内 差异 最 小 化 来 搜索 测量 值 x 在 欧 氏 空间 RP 
中 的 聚 类 C. 

如 果 给 定 了 一 种 候选 聚 类 方案 ,那么 求 we (O 和 be (C) 值 的 复杂 度 如 何 呢 ? 计算 we (C) 
需要 O CICH = O (mn) 次 操作 ， 而 计算 pc (C) 需要 0 (已 ) 次 操作 。 因 此 ， 为 一 个 聚 类 计算 评 
分 函数 需要 〈 至 少 原则 上 是 ) 遍历 整个 数据 一 次 。 

对 聚 类 内 差异 的 另 一 种 定义 是 考虑 聚 类 内 每 个 点 与 同一 聚 类 内 最 近 点 的 距离 ， 并 取 这 些 
距离 中 的 最 大 值 : 


we(C,) =max min {d(x y(M)lxODe Cx +y} (9.18) . 
i y(jec, 


这 种 最 小 距离 (minimum distance) 或 单 链接 〈single-link) 标准 得 到 的 聚 类 是 像 腊 肠 的 
形状 。 我 们 在 9.5 节 的 层次 凝聚 聚 类 算法 中 还 会 讨论 这 一 评分 函数 。 

对 于 欧 氏 室 间 中 的 聚 类 C， 我 们 可 以 使 用 协 方差 的 概念 定义 更 通用 的 评分 函数 。 我 们 可 
以 为 一 个 特定 聚 类 Ci 中 的 点 定义 一 个 pxp ERE 


oo 





W= >》 a-ra- r)" (9.19) 
xeC, 

ERX C 中 点 的 (未 正规 化 的 ) 协 方差 矩阵 。 一 个 特定 聚 类 的 聚 类 间 平 方 和 就 是 这 
个 矩阵 的 迹 〈trace) (对 角 线 元 素 的 和 )，rr (Wi)， 因 此 公式 9.16 中 的 总 聚 类 内 平方 和 可 以 表 
示 为 : 

wc(C)= Y rW) (9.20) 
k 


在 这 一 框架 下 ， 如 果 设 WHL.W,, WAIE W “更 小 ”( 例 如 最 小 化 W 的 迹 或 W 的 行列 
式 ) 的 评分 函数 会 使 数据 的 聚 类 更 加 紧凑 。 
我 们 可 以 定义 一 个 矩阵 B， 用 来 对 与 聚 类 中 心 的 差异 平方 求 和 : 


B=} ny (ry - AN, - A)" (9.21) 

k=] 
其 中 应 是 对 D 中 所 有 数据 点 全 局 均值 的 估计 。 这 个 pxp MAREE T RALE E R H 
方差 (通过 n, 加 权 )。 例 如 ，tr(B) 是 聚 类 均值 相对 于 数据 全 局 均值 估计 的 加 权 距 离 平 方 和 。 
因此 ， 强 调 使 B 更 大 的 评分 函数 使 聚 类 均值 更 加 分 散 。 

我 们 再 次 强调 很 重要 的 但 却 经 常 被 忽视 的 一 点 ， 评 分 函数 的 属性 对 从 数据 中 发 现 的 聚 类 
的 类 型 有 非常 大 的 影响 。 不 同 的 评分 函数 〈 例 如 W 和 B 的 不 同 组 合 ) 会 优先 (prefer) 选择 
不 同 的 聚 类 结构 。 

基于 W 和 B 的 传统 评分 函数 是 W 的 迹 AW) W 的 行列 式 [WIl、 和 BW. WH 
不 足 是 它 依赖 于 个 别 变量 的 标 度 〈scaling )。 改 变 一 个 变量 的 单位 就 会 得 到 一 个 不 同 的 聚 类 
结构 。 当 然 ， 可 以 通过 在 分 析 前 把 所 有 变量 标准 化 来 克服 这 个 不 足 ， 但 很 多 时 候 变量 单位 还 
是 和 其 他 选项 一 样 是 任意 的 。 使 用 rr(W) 标 准 得 到 的 往往 是 紧凑 的 球形 聚 类 ， 而 且 产 生 的 组 
倾向 于 大 体 相 等 。 这 两 个 特征 都 使 这 种 评分 函数 在 区 隔 时 很 有 价值 ， 但 对 于 发 现 上 自然 的 聚 类 
(例如 ， 在 天 文 方面 发 现 一 个 独立 的 非常 小 的 聚 类 可 能 预示 了 一 个 重要 的 发 现 ) 就 不 太 有 吸 
引力 了 。 

[Wl 评分 函数 没有 tr(W) 那 种 标 度 依 赖 性 ， 因 此 它 探测 到 的 聚 类 也 是 椭圆 形 的 ， 而 且 它 也 
倾向 于 得 到 相同 大 小 的 聚 类 。 已 经 有 人 提出 把 聚 类 大 小 考虑 进来 〈 例 如 ， 除 以 了 mx" )， 
以 抵消 聚 类 大 小 相等 的 借 向 ， 但 与 其 调整 一 个 有 缺点 的 方法 还 不 如 重新 订立 一 个 新 的 不 同 标 
准 。 还 该 注意 到 ， 如 果 认 为 数据 是 来 自 一 个 多 元 正 态 混合 分 布 ， 那 么 本 来 的 [WI 评 分 函数 具 
有 最 佳 性 〈optimality) 的 特征 ， 而 修改 后 的 版 本 失去 了 这 个 特征 。( 当然 ， 如 果 可 以 认为 数 
据 是 这 样 产生 的 ， 那 么 我 们 可 以 考虑 拟 合 一 个 正式 的 混合 模型 ， 就 像 9.2.4 小 节 讲 的 那样 )。 

评分 函数 r(BW-0 也 倾向 于 得 到 等 大 小 的 聚 类 ， 而 且 是 大 体 相 同 的 形状 。 注意 因为 这 个 
评分 函数 等 价 于 对 BW! 的 特征 值 进行 汇总 ， 它 主要 受 最 大 特征 值 的 影响 ， 所 以 这 个 评分 函 
数 倾向 于 得 到 共 线 的 〈collinear) 聚 类 。 

从 这 些 评 分 函数 得 到 的 聚 类 具有 相似 形状 的 特征 并 不 是 在 所 有 情况 下 都 是 有 吸引 力 的 
(实际 上 是 很 少 情况 下 会 喜欢 这 一 特征 )。 基 于 对 单独 的 聚 类 内 和 矩阵 W, 的 其 他 组 合 方式 的 


评分 函数 会 好 一 些 一 例如 本 [1 ws 六 和 工 [Was ”， 其 中 是 变量 数 。 然而 即使 是 这 些 
评分 函数 ， 也 有 优先 大 小 相似 聚 类 的 倾向 。( 与 [WI 评分 函数 的 情况 类 似 ， 一 种 有 助 于 克服 这 
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一 不 是 的 方法 是 修改 [Wu [ng 除 以 每 一 个 Wu。 这 相当 于 使 不 同 聚 类 间 的 距 
离 不 同 。) 

这 些 方法 的 一 个 变 体 是 不 使 用 到 聚 类 均值 的 距离 平方 和 ， 而 是 使 用 到 聚 类 中 某 个 特定 成 
员 的 距离 平方 和 。 那 么 搜索 过 程 〈 见 下 文 ) 便 包 含 了 一 种 对 聚 类 中 成 员 的 搜索 ， 搜 索 的 目标 
是 找到 一 个 使 评分 函数 最 小 化 的 成 员 。 当 然 ， 通 常 可 以 不 使 用 到 聚 类 中 心 距离 平方 和 这 一 下 
度 ， 而 使 用 其 他 尺度 。 尤 其 是 ， 把 距离 平方 和 符 换 为 对 距离 的 鲁 棒 估计 可 以 减 小 弧 立 点 的 影 
响 。 也 有 人 提出 使 用 工 ,标准 作为 距离 尺度 。 典 型 的 做 法 是 用 中 值 (median) 向 量 作 聚 类 “中 
心 ”。 

可 以 把 基于 最 小 化 聚 类 内 距离 平方 和 矩阵 的 方法 当 作 是 最 小 化 到 组 矩 心 的 偏差 
Cdeviation)。 一 种 被 称 为 最 可 能 预测 分 类 (maximal predictive classification) (是 为 在 分 类 中 
使 用 二 值 变量 分 类 学 而 开发 的 ， 但 也 适用 于 更 广 的 范围 的 技术 也 可 以 被 看 作 是 最 小 化 到 组 
“中 心 ”的 偏差 ， 尽 管 对 中 心 的 定义 不 同 。 假 定 测量 向 量 的 每 一 个 分 量 都 是 二 值 的 一 一 也 就 
是 ， 每 一 个 对 象 都 可 以 用 -- 个 向 量 来 描述 。 并 且 现 在 我 们 要 对 这 些 对 象 进行 聚 类 。 对 于 每 一 
组 ， 我 们 可 以 定义 一 个 向 量 ， 它 是 由 组 内 每 个 变量 的 最 常见 值 组 成 的 。 这 个 向 量 的 模 《 而 不 
是 均值 ) 将 被 作为 组 的 “中 心 >。 组 成 员 到 这 个 中 心 的 距离 是 按 它 与 中 心 向 量 取 不 同 值 的 变 
量 数 来 度量 的 。 要 优化 的 评分 函数 就 是 对 象 和 它 所 属 组 的 中 心 有 不 同 值 的 总 数 。 最 佳 的 分 组 
就 是 最 小 化 这 种 差异 总 数 的 那 一 个 分 组 。 

下 一 节 要 描述 的 聚 类 分 析 的 层次 方法 所 建立 的 并 不 是 对 数据 的 单一 划分 ， 而 是 建立 
一 种 各 个 聚 类 〈 通 常 ) 相互 嵌 套 的 层次 。 那 么 我 们 就 可 以 决定 在 哪里 切割 层次 就 可 以 做 
到 按 这 种 方式 划分 数据 就 能 得 到 最 合理 的 划分 。 然 而 ， 对 于 基于 划分 的 方法 ， 必 须 在 开 
始 时 就 决定 要 划分 成 多 少 个 聚 类 。 当 然 ， 我 们 可 以 多 次 重复 划分 过 程 ， 每 次 使 用 不 同 的 
聚 类 数量 ， 但 这 还 是 需要 我 们 有 好 的 方法 来 在 竞争 的 数目 间 做 出 选择 。 对 于 这 个 问题 没 
有 最 佳 解 。 当 然 ， 我 们 可 以 分 析 聚 类 评分 函数 如 何 根据 聚 类 数量 的 增长 而 变化 ， 但 对 于 
不 同 的 聚 类 数量 这 种 比较 可 能 是 不 准确 的 。 举 例 来 说 ， 或 许 随 着 数量 的 增长 不 论 是 否 真 
的 存在 更 好 的 聚 类 结构 分 数 都 显示 出 了 明显 的 改善 〈 比 如 说 ， 聚 类 内 距离 平方 和 保证 不 
会 随 着 天 的 增长 而 增长 )。 对 于 被 最 优 分 割 成 K 个 聚 类 的 多 元 均匀 分 布 ， 评 分 函数 KIWI 
对 于 所 有 天 逐步 趋向 于 取 同 一 个 值 ， 像 这 样 的 结果 可 以 用 作 比较 不 同 K 值 所 产生 划分 的 
基础 。 

显然 聚 类 分 析 很 大 程度 上 是 一 种 数据 驱动 的 工具 ， 在 这 种 分 析 中 很 少 有 一 成 不 变 的 建 模 
方法 。 然 而 一 些 学 者 已 经 尝试 把 它 置 于 一 种 更 可 靠 的 基于 模型 的 基础 之 上 。 例 如 ， 我 们 可 以 
对 这 一 过 程 进行 补充 ， 我 们 假定 除了 存在 某 种 机 制 产生 了 桶 类 内 的 点 之 外 ， 还 存在 一 个 随机 
过 程 产生 了 稀疏 分 布 的 点 ， 而 且 对 整个 空间 是 均匀 的 。 这 使 这 种 方法 更 不 容易 受 孤 立 点 的 影 
响 。 一 个 更 进一步 的 做 法 是 使 用 特定 的 分 布 假定 来 对 每 个 聚 类 内 的 数据 分 布 建 模 一 一 我 们 将 
在 9.6 节 中 再 回 过 头 来 讨论 这 种 基于 模型 的 概率 聚 类 。 


9.4.2 ”基于 划分 聚 类 的 基本 算法 


前 面 我 们 分 析 了 很 多 种 可 以 判断 聚 类 质量 的 评分 函数 。 那 么 用 于 优化 这 些 评分 函数 的 算 
法 是 什么 样 的 呢 ? 至 少 在 理论 上 这 个 问题 的 答案 是 直截了当 的 。 我 们 只 要 对 把 各 个 点 分 配 到 
RK C 的 可 能 分 配方 案 所 组 成 的 空间 进行 搜索 就 可 以 了 ， 搜 索 的 目标 是 使 评分 函数 最 小 化 


Ww 
Ww 
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(或 最 大 化 ， 视 选取 的 评分 函数 定 )。 

可 以 认为 这 种 搜索 问题 本 质 上 是 组 合 优化 的 一 种 形式 ， 因 为 我 们 是 对 把 n 个 对 象 放 入 
个 类 的 分 配方 案 进行 搜索 以 最 大 化 《或 最 小 化 ) 选取 的 评分 函数 。 可 能 分 配方 案 〈 聚 类 数据 
的 不 同方 法 ) 的 数量 可 以 近似 为 K". BIW, FE 100 个 对 象 分 成 两 类 有 大 约 2 = 10" 种 可 能 
分 配 。 因 此 ， 和 我 们 已 经 看 到 的 其 他 数据 挖掘 问题 一 样 ， 直 接 的 穷 举 搜索 肯定 是 不 可 行 的 ， 
除非 要 处 理 的 数据 集 微 平 其 徽 。 尽 管 如 此 ， 对 于 某 些 聚 类 评分 函数 ， 已 经 开发 出 这 样 的 方法 : 
它们 穷 举 式 的 覆盖 所 有 可 能 的 聚 类 方法 但 不 真 的 进行 穷 举 搜索 。 这 样 的 方法 包括 分 支 定 界 方 
法 ， 该 方法 剪除 比 已 经 发 现 的 备 选 方案 更 差 的 可 能 聚 类 ， 并 不 实际 计算 可 能 聚 类 的 分 数值 。 
这 样 的 方法 尽管 扩大 了 穷 举 方法 的 适用 范围 ， 但 是 即使 对 于 中 等 大 小 的 数据 集 仍 是 不 适用 
的 。 因 此 ， 我 们 不 再 讨论 这 种 方法 。 

不 幸 的 是 ， 并 不 是 任何 感 兴趣 的 评分 函数 都 存在 闭合 形式 的 解 ， 也 就 是 说 ， 通 常 不 存在 
直接 的 方法 找到 最 小 化 评分 函数 的 特定 聚 类 C。 既 然 闭 合 形式 的 解 不 总 存在 ， 而 且 穷 举 搜索 
又 不 可 行 ， 那 么 我 们 就 必须 依赖 于 某 种 形式 的 系统 搜索 方法 〈 在 第 8 章 中 讨论 了 这 样 的 搜索 
方法 )。 有 必要 强调 ， 如 果 给 定 了 特定 评分 函数 ， 那 么 聚 类 问题 就 已 经 被 简化 为 一 种 优化 问 
题 ， 因 此 可 以 在 优化 的 文献 中 找到 大 量 的 可 能 适用 的 方案 。 

基于 局 部 搜索 的 递归 改善 算法 在 聚 类 分 析 中 特别 流行 。 其 一 般 思 想 是 : 从 随机 选取 的 聚 
类 开始 ;然后 重新 分 配点 使 评分 男 数 最 大 程度 的 增长 〈 或 降低 );， 然后 再 重新 计算 更 新 后 的 
聚 类 的 中 心 ， 再 次 重新 分 配点 ， 如 此 继续 直到 评分 函数 没有 变化 或 聚 类 成 员 没 有 变化 。 这 种 
贪 禁 方法 的 优点 是 简单 而 且 保证 至 少 得 到 评分 函数 的 局 部 最 大 值 〈 最 小 值 )。 当 然 这 种 方法 
也 有 贪 栖 搜索 算法 的 普遍 缺陷 ， 即 无 法 知道 收敛 到 的 聚 类 C 与 最 佳 的 可 能 聚 类 《〈 所 用 评分 
函数 的 全 局 最 优 值 》 相 比 的 好 坏 程 度 。 

下 面 我 们 介绍 一 种 运用 这 一 原理 的 著名 范例 ， 也 就 是 K- 均 值 算法 (与 第 8 章 中 介绍 的 
EM 算法 有 密切 关系 ， 而 且 在 9.2.4 节 中 我 们 提 到 过 这 种 方法 )。 聚 类 的 数量 K 是 在 算法 运行 
前 确定 的 (这 是 很 多 聚 类 算法 的 典型 情况 )。K- 均 值 算法 有 很 多 种 变 体 ， 基 本 的 版 本 是 从 随 
机 捡 取 KK 个 聚 类 中 心 开 始 的 ， 再 根据 欧 氏 距离 把 每 个 点 分 配 到 最 接近 其 均值 的 聚 类 中 ， 然 
后 计算 被 分 配 到 每 个 聚 类 的 点 的 均值 向 量 ， 并 作为 新 的 中 心 进行 递归 。 具 体 算法 是 这 样 的 : 
假定 数据 点 D={fx，…:}， 任 务 是 找到 天 个 聚 类 {CI，…, Cr: 


for k = 1，…，K 令 r(k) 为 从 口中 随机 选取 的 一 个 点 ; 
while ERZ c, 中 有 变化 发 生 do 
RRR: 
for k = 1, **,K do 
C, = {x € Did(x, ,x)<d(r; ,x) 对 所 有 j=1, +, K, jżk}: 
end; 
计算 新 的 聚 类 中 心 : 
for k =1,',K do 
rc 内 点 的 均值 向 量 


end; 








end; 


例 93 在 美国 国家 航空 和 航行 局 的 深层 宇宙 网 络 (NASA'S Deep Space 
Network) 中 ， 用 来 跟踪 和 与 深层 宇宙 探测 器 通信 的 两 个 天 线 接收 器 是 34m 和 70m 
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的 庞然大物 ， 它 的 电机 控制 系统 是 这 个 网 络 中 的 一 个 重要 部 分 。 这 个 电机 控制 系统 
的 发 动机 电流 可 以 非常 敏感 的 感受 到 天 线 运行 情况 的 微小 变化 ， 因 此 可 以 作为 在 线 
监控 和 故障 探测 的 根据 。 图 9-4 显示 了 来 自 34m 深 室 网 络 天 线 的 样本 数据 。 每 个 
二 变量 的 数据 点 对 应 于 发 动机 电流 测量 值 的 一 个 两 秒 时 间 窗 ， 测 量 值 已 经 用 一 个 简 
单 的 自 回 归 (autoregressive ) ( 线性 ) 时 序 模 型 模型 化 了 ， 并 且 数 据点 的 两 维 分 别 
对 应 于 自 回 归 模 型 对 特定 窗 格 估计 出 的 前 两 个 系数 。 这 个 模型 是 每 隔 两 秒 与 数据 实 
时 拟 合 一 次 ， 因 此 系数 的 变化 反映 了 发 动机 电流 测量 值 频谱 特征 的 变化 。 
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图 9-4 天线 数 据 。 上 图 显示 的 是 没有 分 类 标签 的 数据 点 ， 下 图 使 用 了 不 同 符号 
代表 三 个 已 知 分 类 〈 点 是 正常 情况 ， 圆 是 转速 计 噪 声 。x 是 短路 的 情况 ) 


图 9-4 下 方 散 点 图 中 的 数据 显示 出 了 各 个 数据 点 所 属 的 不 同情 况 (三 组 ， 一 组 
正常 情况 ， 两 组 故障 情况 )， 图 9-5 显示 了 应 用 开 均 值 算法 对 这 些 数据 进行 聚 类 的 
结果 ， 使 用 的 玉 值 为 3， 而 且 在 聚 类 时 删除 了 分 类 标签 (也 就 是 使 用 图 9-4 上 图 中 
的 数据 点 作为 KK 均值 算法 的 输入 )。 算 法 的 三 个 初始 起 点 都 位 于 中 央 (正常 的 ) 点 
群 内 ， 但 仅 经 过 4 次 迭代， 算法 就 迅速 收 仇 到 一 种 聚 类 ( 聚 类 均值 的 变化 轨迹 画 在 
图 9-6 中 )。 四 次 迭代 后 的 最 终 聚 类 (图 9-5 中 的 下 图 ) 产生 的 三 个 分 组 与 图 9-4 显 
示 的 已 知 分 组 非常 接近 。 当 然 ， 这 个 数据 集 的 分 组 是 比较 明显 的 ， 可 以 看 出 不 同 的 
故障 情况 与 正常 情况 是 分 离 的 (特别 是 左面 的 转速 计 噪声 )、 尽 管 如 此 ， 我 们 看 到 
了 在 该 例 中 儿 均 值 算法 迅速 并 准确 地 收 合 到 非常 接近 真实 分 组 的 聚 类 。 
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图 9.5 在 二 维 的 天 线 数据 上 运行 K- 均 值 算法 。 这 些 散 点 图 显示 了 K- 均 值 算法 
经 过 不 同 次 适 代 后 娶 类 均值 的 位 置 〈《 大 的 圆圈 )， 以 及 每 一 次 迭代 后 
数据 点 的 分 类 (根据 它 最 靠近 的 均值 ) (点 、 圆 和 x 分 别 对 应 三 个 聚 类 ) 
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天- 均值 算法 的 复杂 度 是 O (Kn), HP 7 是 迭代 次 数 。 也 就 是 说 ， 给 定 了 当前 的 聚 类 中 
心 mr， 我 们 可 以 只 要 遍历 数据 一 次 就 能 计算 出 所 有 的 Kn 个 距离 d (ru x)， 并 为 每 个 x 选择 最 
短 的 一 个 ， 而 后 也 可 以 在 O(n) 次 内 完成 对 新 聚 类 中 心 的 计算 。 
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图 9-6 “在 图 9-5 所 示 的 K- 均 值 迭 代 过 程 中 三 个 聚 类 均值 的 移动 轨迹 


这 种 算法 的 一 个 变 体 是 依次 分 析 每 个 数据 点 ， 而 且 一 旦 有 数据 点 被 重新 分 配 就 更 新 聚 类 
中 心 ， 反 复 地 在 数据 点 中 循环 直到 解 不 再 变化 。 如 果 数 据 集 是 很 庞大 的 ， 那 么 还 可 以 仅 加 入 
每 个 数据 点 ， 不 要 循环 。 进 一 步 的 扩展 (例如 ISODATA 算法 ) 包括 分 裂 (splitting) 和 (或 ) 
融合 (merging ) 聚 类 。 注 意 在 大 量 的 基于 划分 的 聚 类 算法 中 ， 很 多 都 是 围绕 每 次 从 聚 类 中 
增加 或 删除 一 个 数据 点 这 一 思想 的 。 已 经 开发 出 了 一 些 高 效 的 更 新 公式 用 来 计算 数据 点 进出 
聚 类 所 引起 的 评分 函数 变化 -一 -尤其 是 对 于 包含 了 上 一 节 讨论 的 W 的 所 有 评分 函数 。 

及 均值 算法 的 搜索 过 程 局 限于 全 部 可 能 划分 空间 的 一 个 很 小 部 分 。 因 此 有 可 能 因为 算法 
收 伍 到 评分 函数 的 局 部 而 非 全 局 最 小 值 而 错过 一 个 更 好 的 解 。 一 种 缓解 (如 果 没 有 解决 的 话 ) 
这 一 问题 的 方法 是 从 不 同 的 随机 选取 的 起 始点 进行 多 次 搜索 。 甚 至 可 以 更 进一步 的 采用 模拟 
退火 策略 〈 如 第 8 章 讨论 的 ) 来 尽 可 能 避免 陷入 评分 函数 的 局 部 最 小 值 。 

聚 类 分 析 实 质 上 是 搜索 庞大 的 解 空间 以 优化 特定 评分 函数 的 搜索 问题 。 因 此 ， 很 多 数学 
规划 方法 已 经 应 用 到 这 个 领域 。 这 些 方法 包括 线性 规划 、 动 态 规划 、 以 及 线性 和 非 线性 整数 
规划 。 

聚 类 方法 经 常 应 用 在 庞大 的 数据 集 上 。 如 果 观 察 值 的 数量 过 于 庞大 以 至 于 标准 算法 难以 
处 理 时 ， 我 们 可 以 通过 用 紧缩 表示 替换 对 和 象 组 来 压缩 数据 集 。 例 如 ， 如 果 有 100 个 观察 值 在 
度量 空间 中 很 接近 , 那么 我 们 可 以 把 它们 蔡 换 为 它们 的 矩 心 所 在 的 观察 值 并 附带 一 个 特征 (所 
表示 的 这 组 点 的 半径 )。 而 且 只 要 对 一 些 算法 进行 简单 修改 就 可 以 使 它们 操作 这 种 “紧缩 的 ” 
表示 。 
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基于 划分 的 聚 类 方法 是 从 指定 数量 的 聚 类 开始 搜索 可 能 的 点 分 配方 案 ， 来 寻找 使 某 个 聚 
类 评分 函数 最 优 的 分 配方 法 ; 与 此 不 同 , 层次 方法 逐步 地 融合 点 或 切 分 超 聚 类 (supercluster)。 
事实 上 ， 根 据 这 一 基本 思想 我 们 可 以 把 层次 方法 划分 成 两 类 : FAR (agglomerative) OHM 
FRA) MOA (divisive)( 对 应 于 切 分 )。 在 这 两 种 方法 中 ， 凝 聚 方法 更 重要 而 且 应 用 更 
广 。 注 意 可 以 把 层次 方法 看 作 降低 搜索 规模 的 一 种 特定 方式 而且 特别 直观 )。 它 与 本 书 其 
他 部 分 介绍 的 用 于 建 模 的 分 步 方 法 很 类 似 。 

层次 聚 类 的 一 个 明显 特征 是 难以 把 模型 从 评分 函数 和 用 来 决定 最 佳 聚 类 的 搜索 方法 分 离 
出 来 。 因 此 ， 在 这 一 节 中 我 们 直接 就 把 讨论 的 焦点 集中 到 聚 类 算法 上 。 我 们 可 以 把 最 终 的 层 
次 看 作 一 个 从 数据 点 到 聚 类 的 层次 映射 模型 ， 但 是 这 个 模型 《也 就 是 聚 类 的 “形状 ”) 的 属性 
是 隐 含 在 算法 中 的 ， 不 能 明确 地 单独 表示 。 类 似 的 ， 这 里 的 评分 函数 也 没有 全 局 评分 函数 的 
明确 概念 。 而 是 使 用 不 同 的 局 部 方法 计算 树 上 叶 对 《〈 也 就 是 ， 数 据 的 特定 层次 聚 类 的 聚 类 对 ) 
的 分 数 来 决定 哪 一 对 聚 类 是 凝聚 (融合 ) 和 分 裂 〈 切 分 ) 的 最 佳 候选 者 。 注 意 就 像 在 基于 划 
分 的 聚 类 中 使 用 不 同 全 局 评分 函数 的 情况 一 样 ， 不 同 的 局 部 评分 函数 会 得 到 过 异 的 最 终 聚 类 。 

可 以 很 方便 地 用 图 形 来 显示 聚 类 分 析 的 层次 方法 ， 在 图 形 中 可 以 显示 出 融合 〈 或 切 分 ) 
的 整个 过 程 。 因 为 它 的 特征 与 树 相似 ， 所 以 这 种 图 被 称 为 树 状 图 〈dendrogram)。 我 们 将 在 
下 面 的 例子 中 进一步 说 明 。 

聚 类 分 析 对 于 存在 两 个 以 上 的 变量 情况 特别 有 价值 : 如 果 仅 有 两 个 变量 ， 那 么 我 们 就 可 
以 目测 一 个 散 点 图 来 寻找 结构 。 然 而 ， 为 了 在 一 个 我 们 可 以 看 出 真实 情况 的 数据 集 上 说 明 这 
种 方法 的 基本 思想 , 我 们 依然 在 一 个 二 维 数据 集 上 介绍 层次 方法 。 这 个 数据 集 节选 自 Azzalini 
and Bowman (1990) 中 给 出 的 一 个 更 大 的 数据 集 。 图 9-7 显示 了 这 个 二 维 数据 的 散 点 图 A 
轴 是 喷发 持续 时 间 ， 横 轴 是 喷发 的 间隔 时 间 ， 都 是 以 分 钟 为 单位 的 。 图 中 的 点 是 用 数字 给 出 
的 ， 这 仅 是 为 了 在 说 明 中 把 它们 与 树 状 图 联系 起 来 ， 并 没有 其 他 实质 性 的 用 途 。 


持续 时 间 





50 60 70 80 90 
等 待 时 间 


图 9-7 ”美国 黄石 国家 公园 旧 费 斯 富 尔 间歇 喷泉 的 喷发 持续 时 间 与 间歇 时 间 〈 分 钟 ? 
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图 9-8 显示 了 使 用 凝聚 方法 〈 把 对 聚 类 内 平方 和 产生 最 小 增长 的 两 个 聚 类 融合 起 来 ) 所 
得 到 的 一 个 树 状 图 实例 。 树 状 图 中 交叉 点 〈 分 支 融 合 的 地 方 ) 的 高 度 显示 了 评分 函数 的 值 。 
因此 ， 最 初 点 18 和 点 27 的 融合 产生 的 增长 最 小 。 从 图 9-7 我 们 可 以 看 到 这 两 点 确实 离 得 非 
常 近 〔( 实 际 上 是 最 近 的 )。 注 意 视觉 观察 到 的 邻近 程度 是 失真 的 ， 因 为 在 页 面 上 横向 的 刻度 
与 纵向 刻度 相 比 被 压缩 了 。 接 下 来 是 对 点 6 和 点 22 的 融合 。 又 经 过 了 一 些 对 相 邻 点 对 的 个 
体 融 合 后 ， 点 12 是 与 由 点 18 和 点 27 组 成 的 聚 类 融合 的 ， 因 为 根据 聚 类 标准 这 是 产生 最 小 
增长 的 融合 。 继 续 这 个 过 程 直 到 最 后 一 个 融合 ， 两 个 大 的 点 聚 类 的 融合 。 从 树 状 图 中 可 以 清 
晰 地 看 到 这 一 过 程 。( 没 有 必要 总 是 聚 类 到 这 种 程度 。 有 时 最 终 的 融合 是 把 大 的 聚 类 和 一 个 
单一 的 孤立 点 融合 一 一 就 像 我 们 后 面 将 看 到 的 那样 。) 显示 在 树 状 图 中 的 层次 结构 也 使 我 们 
可 以 清楚 地 看 到 我 们 可 以 在 其 他 点 停止 这 个 过 程 ， 这 相当 于 在 某 个 高 度 水 平 切断 树 状 图 ， 这 
将 得 到 多 个 聚 类 。 
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9.5.1 ”凝聚 方法 


凝聚 方法 是 以 聚 类 间 的 距离 尺度 为 基础 的 。 实 质 上 ， 对 于 给 定 的 初始 诊 类 ， 凝 聚 方法 是 
把 最 邻近 的 聚 类 融合 起 来 以 降低 聚 类 的 数量 。 重 复 这 个 过 程 ， 每 次 都 把 两 个 最 邻近 的 聚 类 融 
合 ， 直 到 仅 有 一 个 包括 所 有 数据 点 的 聚 类 。 通 常 这 个 过 程 的 起 始点 是 每 个 聚 类 仅 含 一 个 数据 
点 的 初始 聚 类 ， 也 就 是 从 要 被 聚 类 的 n 个 点 开始 。 

假定 给 定 n 个 数据 点 D= {x(1D),…,x(m)} 和 一 个 用 来 衡量 两 个 隧 类 CGA C) 间 距离 的 函数 9 


v 


w 
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(Ci, C)。 那 么 可 以 把 聚 类 这 个 数据 集 的 凝聚 方法 描述 为 : 
for i=1, “",n & Cy={x(i)}; 
while 存在 一 个 以 上 的 聚 类 do 
A&C, Bc; 为 使 系统 中 任意 两 个 聚 类 间 的 距离 D (cx C) 最 小 化 的 两 个 聚 类 ; 
Cy = C; U Cj; 
删除 聚 类 C53 


end; 


这 种 方法 的 时 间 复 杂 度 如 何 呢 ? 在 开始 时 有 个 聚 类 ， 结 束 时 有 1 个 聚 类 ， 因 此 在 主 循 
环 中 有 n KER. EE 守 次 迭代 中 我 们 必须 在 nit] 个 聚 类 中 寻找 最 靠近 的 两 个 率 类 。 我 们 
马上 会 介绍 很 多 种 定义 聚 类 间距 离 D(C,C) 的 不 同方 法 。 但 所 有 这 些 方 法 都 需要 在 第 一 次 达 
代 时 找到 最 近 的 一 对 对 象 。 除 非 我们 知道 对 象 间 距离 的 特别 知识 ， 耕 则 这 个 过 程 需要 的 时 间 
是 0 (wm )， 因 此 在 大 多 数 情况 下 ， 这 个 算法 需要 的 时 间 是 0 (zz )， 而 且 经 常 超过 。 还 请 注意 
这 个 算法 的 空间 复杂 度 也 是 O(n?)， 因 为 必须 在 算法 开始 时 就 计算 出 所 有 对 和 象 两 两 间 的 距离 。 
因此 这 个 算法 对 于 n 值 很 大 的 情况 是 不 适用 的 。 而 且 ， 解 释 一 个 庞大 的 树 状 图 也 是 非常 困难 
的 (这 与 解释 一 个 庞大 的 分 类 树 是 很 困难 的 一 样 )。 

注意 到 在 凝聚 萌 类 中 ， 我 们 需要 知道 数据 对 象 个 体 间 的 距离 以 开始 聚 类 ， 而 且 在 聚 类 过 
程 中 我 们 必须 能 够 计算 数据 点 分 组 间 的 距离 《也 就 是 聚 类 之 闻 的 距离 )。 因 此 这 种 方法 的 一 
个 优势 〈 例 如 ， 胜 过 基于 划分 的 聚 类 ) 是 不 需要 把 每 个 对 象 表示 为 向 量 ， 只 要 我 们 能 够 计算 
对 象 间或 对 象 集 间 的 距离 。 因 此 ， 凝 聚 聚 类 为 聚 类 那些 不 易 表 示 为 向 量 的 对 象 提供 了 一 种 自 
然 框架 。 一 个 很 好 的 例子 是 聚 类 蛋白 质 序 列 ， 在 这 个 问题 中 有 几 种 不 同 的 距离 定义 ， 比 如 两 
个 序列 间 的 编辑 距离 (edit-distance)〈 一 种 衡量 从 一 个 序列 转换 到 另 一 个 序列 所 需 基本 编辑 
操作 次 数 的 尺度 )。 

根据 对 象 集 (也 就 是 聚 类 )〉 间 距离 的 一 般 情况 ， 人 们 已 经 提出 了 很 多 种 距离 尺度 。 如 果 
对 象 是 向 量 ， 那 么 可 以 应 用 9.4 节 中 描述 的 任 一 种 全 局 评分 函数 ， 只 要 使 用 融合 前 分 数 和 融 
合 两 个 后 分 数 的 差异 就 可 以 了 。 

然而 ， 局 部 对 间 (也 就 是 各 对 聚 类 间 ) 的 距离 尺度 特别 适合 于 层次 方法 ， 因 为 可 以 直接 
根据 聚 类 内 成 员 的 对 间距 离 计算 这 些 尺度 。 最 近邻 或 单 链接 方法 是 此 类 方法 中 最 早 和 最 重要 
的 一 种 。 这 种 方法 把 两 个 聚 类 间 的 距离 定义 为 两 个 最 近 点 〈 每 个 聚 类 中 取 一 点 ) 间 的 距离 : 

Da (C;,C;) = min{d(x,y) xe Ciye C;} (9.22) 


其 中 d(x, EWR x 和 y 间 的 距离 。 单 链接 方法 是 易 受 “链条 ”现象 影响 的 “这 可 能 是 有 利 
的 也 可 能 是 不 利 的 ， 依 赖 于 我 们 的 目的 )， 以 至 于 很 长 的 点 串 被 分 配 到 同一 个 聚 类 中 《这 与 
紧凑 的 球形 聚 类 形成 对 比 )。 这 意味 着 单 链接 方法 对 于 区 隔 问题 的 价值 很 有 限 ， 这 也 意味 着 
这 种 方法 对 于 数据 的 微小 扰动 和 孤立 点 很 敏感 (这 也 既 可 能 有 利 又 可 能 不 利 ， 要 看 我 们 要 实 
现 什 么 目标 )。 这 种 单 链接 方法 还 有 一 个 特征 这 是 该 方法 独 有 的 一 一 其 他 距离 尺度 不 具有 
这 一 特征 )， 就 是 如 果 有 两 对 聚 类 是 等 距离 的 ， 那 么 先 融合 哪 一 对 都 无 所 谓 。 无 论 融 合 的 顺 
序 如 何 ， 最 终 的 结果 都 相同 。 

对 图 9-7 中 的 数据 应 用 单 链接 方法 得 到 的 树 状 图 显示 在 图 9-9 中 。 尽 管 对 于 这 个 特定 的 
数据 集 单 链接 聚 类 和 图 9-8 中 的 聚 类 非常 相似 ， 但 是 通常 这 两 种 方法 产生 的 结果 是 有 很 大 差 
异 的 。 











图 9-9 对 图 9-7 中 的 数据 应 用 单 链接 方法 得 到 的 树 状 图 


与 单 链接 相反 的 另 一 种 方法 是 最 远 邻 〈furthest neighbor)， 又 叫 完全 链接 (complete link), 
这 种 方法 把 两 个 聚 类 间 的 距离 定义 为 两 个 最 远离 点 〈 两 个 点 分 别 来 自 两 个 聚 类 ) 间 的 距离 : 


Da(Ci,C;)=max{d(x,y)Ixe Ci,y e C;} (9,23) 
xy 


其 中 d(x, PEW x M y 间 的 距离 。 对 于 向 量 对 和 象 ， 这 个 尺度 迫使 产生 的 分 组 所 占 的 空间 体 
积 倾向 于 具有 相等 的 大 小 (数据 点 数 不 一 定 相 等 )， 这 使 这 一 尺度 特别 适合 于 区 隔 问 题 。 

其 他 介 于 单 链接 和 完全 连接 之 间 的 重要 尺度 包括 (对 于 向 量 对 象 ) BORE PRR 
间 的 距离 是 它们 的 矩 心 间 的 距离 )， 组 平均 尺度 两 个 育 类 间 的 距离 是 两 个 育 类 中 各 点 间 所 
有 距离 〈 每 个 聚 类 一 点 ) 的 平均 值 )， 和 对 于 向 量 数据 的 Ward 尺度 〈 两 个 聚 类 间 的 距离 是 两 
个 聚 类 中 分 别 计算 出 的 聚 类 内 平方 和 的 差异 ， 聚 类 内 平方 和 是 从 上 面 讨论 的 对 两 个 聚 类 的 融 
合 中 得 到 的 )。 这 些 尺度 每 个 都 有 一 些 略 微 不 同 的 特征 ， 还 存在 一 些 变 体 ， 例 如 ， 用 于 向 量 
数据 的 中 值 尺 度 忽 视 聚 类 的 大 小 ， 把 两 个 聚 类 组 合 的 “中 心 ” 定 义 为 连接 两 个 部 分 的 中 心 的 
直线 的 中 点 。 因 为 数据 挖掘 就 是 要 寻求 新 奇 的 发 现 ， 所 以 很 有 必要 试验 不 同 的 扩 度 ， 以 便 突 
然 发 现 一 些 异 常 而 又 有 趣 的 信息 。 


9.5.2 ”分 裂 方法 
选择 变量 的 分 步 方法 可 以 从 没有 变量 开始 逐步 地 加 入 变量 〈 根 据 能 否 最 大 的 改善 模型 )， 


也 可 以 从 所 有 变量 开始 逐步 地 删除 变量 (删除 的 依据 是 使 其 对 模型 的 损伤 最 小 )。 豪 类 分 析 
也 与 此 类 似 。 聚 类 分 析 的 凝聚 方法 相当 于 前 一 种 情况 ， 分 裂 方法 相当 与 后 一 种 方法 。 分 裂 方 
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法 从 一 个 由 所 有 数据 点 组 成 的 聚 类 起 步 ， 然 后 想 办 法 把 这 个 聚 类 分 割 成 多 个 部 分 。 而 后 再 对 
这 些 分 出 的 部 分 进行 进一步 分 制 ， 并 重复 这 个 过 程 直到 满足 需要 为 止 。 当 然 ， 当 每 个 聚 类 仅 
包含 一 个 数据 点 时 这 个 过 程 会 结束 。 

YAZ (monothetic divisive) 方法 每 次 使 用 一 个 变量 拆 分 聚 类 〈 所 以 它们 类 似 于 第 5 
章 讨论 的 树 分 类 方法 )。 这 是 限制 必须 要 分 析 的 可 能 划分 数量 的 一 种 有 效 方式 (不 过 是 有 
局 限 的 )。 它 还 有 一 个 优点 是 易于 用 树 状 图 来 描述 得 到 的 结果 一 一 每 个 节点 处 的 分 割 都 是 
仅 以 一 个 变量 定义 的 。 有 时 用 关联 分 析 (association analysis) 这 一 术语 来 描述 应 用 到 多 变 
量 二 值 数 据 的 单 分 裂 过 程 。( 这 里 关联 一 次 的 含义 与 第 5 章 中 介绍 的 “关联 规则 ”中 的 关 
联 用 法 不 同 。) 

多 分 裂 (polythetic divisive) 方法 基于 对 全 部 变量 的 综合 分 析 进 行 拆 分 。 在 拆 分 中 可 以 
使 用 任何 聚 类 间距 离 尺 度 。 这 种 方法 的 难点 在 于 如 何 选取 向 聚 类 中 分 配对 象 的 各 种 可 能 方案 
一 一 也 就 是 ， 如 何 限 制 在 可 能 划分 的 空间 中 的 搜索 范围 。 一 种 途径 是 一 次 一 个 的 分 析 对 象 ， 
并 选取 把 它 从 主 聚 类 放 入 子 聚 类 就 可 以 最 大 改善 聚 类 分 数 的 那 一 个 。 

一 般 来 说 ， 分 裂 方法 的 运算 量 比 凝聚 方法 更 大 ， 而 且 应 用 不 如 后 者 广泛 。 


96 ”基于 混合 模型 的 概率 聚 类 


我 们 还 可 以 使 用 9.2.4 节 的 混合 模型 以 概率 理论 为 背景 建立 起 用 于 聚 类 的 一 般 框架 。 这 
就 是 通常 所 说 的 基于 模型 的 概率 聚 类 (probabilistic model-based clustering)， 因 为 在 这 些 方 法 
中 每 一 个 聚 类 (分量 ) 都 对 应 于 一 个 假定 的 概率 模型 。 在 这 一 框架 中 ， 我 们 假定 数据 来 自 于 
一 个 多 元 有 限 混 合 模型 ， 模 型 的 一 般 形式 是 : 


K 
f(%) = Dit fe 69%) (9.24) 

k=) 
Kh pA. 粗略 地 讲 , 建 模 的 一 般 过 程 如 下 : 对 于 给 定 的 数据 集 D= {x(D)，…, x()), 
首先 次 定 想 要 用 多 少 个 聚 类 拟 合 数据 〈 即 确定 K)， 然 后 再 为 这 K 个 聚 类 中 的 每 一 个 选取 参 
数 模型 〈 比 如 多 元 正 态 分 布 ， 这 是 最 常用 的 方案 )， 最 后 再 用 9.2.4 节 的 EM 算法 〈 第 8 章 中 
描述 的 更 加 详细 ) 来 根据 数据 确定 分 量 的 参数 6. 和 分 量 的 概率 za。( 当然， 我 们 也 可 以 根据 
数据 来 确定 K 的 最 佳 值 ， 在 这 一 节 的 后 面 我 们 将 回 过 头 来 讨论 这 个 问题 。) 通常 使 用 数据 的 
似 然 〈 对 于 给 定 的 混合 模型 ) 作为 评分 函数 ， 尽 管 也 可 以 使 用 其 他 的 标准 〈 比 如 所 谓 的 分 类 
似 然 )。 一 旦 找到 了 混合 分 解 模型 ， 便 可 以 把 数据 分 配 到 各 个 聚 类 了 比如 按 它 最 可 能 来 
自 的 聚 类 分 配 每 个 点 。 

为 了 说 明 这 一 思想 ， 我 们 把 这 种 方法 应 用 到 一 个 事实 上 已 经 知道 分 类 标签 的 数据 集 上 ， 

但 是 我 们 先 把 这 些 标 签 去 掉 ， 然 后 让 算法 来 “发 现 ”它们 。 


例 9.4 对 于 慢性 铁 缺 乏 贫 血 的 人 来 说 ， 他 们 的 血红 细胞 量 往往 比 正 常 的 低 ， 
而 且 血 红 蛋 白 的 浓度 也 较 低 。 可 以 抽取 血液 样本 以 得 出 一 个 人 的 血红 细胞 平均 量 和 
血红 蛋白 浓度 .图 9-10 所 示 为 182 个 人 的 血红 细胞 平均 量 相对 于 血红 蛋白 浓度 的 
散 点 图 ， 图 中 的 点 带 有 通过 诊断 试验 测 得 的 结果 标签 。 图 9-11 所 示 的 是 使 用 K=2 
” 的 正 态 混合 模型 来 拟 合 去 掉 标 签 的 这 些 数 据 而 得 到 的 结果 。 从 图 中 可 以 看 出 ， 两 个 
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分 量 的 混合 模型 捕捉 到 了 数据 的 主要 特征 ， 如 果 不 知 道 分 类 标签 ( 也 就 是 不 进行 化 
验 分 析 ) 也 将 会 给 出 较 好 的 聚 类 。 图 9-2 验证 了 似 然 【或 者 说 对 数 似 然 ， 二 者 是 等 
价 的 ) 不 会 随和 迭代 次 数 下 降 。 然 而 注意 ， 收 敛 速 度 是 变化 的 〈nonmonotonic )， 也 
就 是 说 ， 第 5 次 到 第 8 次 和 迭代 间 的 对 数 似 然 上 升 率 放 慢 了 ， 但 第 8 次 到 12 次 间 又 
上 升 了 。 





aat 





血红 细胞 的 平均 血红 蛋白 浓度 
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平均 血红 细胞 量 


图 9-10 182 个 人 的 血红 细胞 测量 结果 。 从 图 中 可 以 看 出 所 有 个 体 
形成 两 组 ， 健 康 的 〈 圆 圈 ) 和 患 铁 缺 乏 贫血 的 〈 叉 号 ) 


图 9-11 的 血红 细胞 例子 说 明了 概率 方法 具有 以 下 几 个 特征 : 
@ 概率 模型 为 每 个 分 量 提供 了 完全 的 分 布 描述 。 例 如 ， 注 意 观 察 这 个 例子 中 两 个 分 量 


的 差异 。 正 常 的 分 量 相对 紧缩 ， 这 表明 在 正常 人 之 间 数 据 的 变化 性 是 相当 低 的 。 刀 
一 方面 ， 患 有 铁 缺 乏 贫血 的 聚 类 分 散 的 很 广 ， 表 明 变 化 性 较 大 。 这 正好 与 我 们 的 直 
觉 一 致 ， 而 且 这 种 信息 对 于 科学 的 研究 数据 产生 过 程 的 基本 机 制 是 很 有 价值 的 。 


o 对 于 给 定 的 模型 ， 每 个 个 体 〈 每 个 数据 点 ) 都 有 一 个 天 -分 量 的 向 量 与 其 相关 ， 这 K 


个 分 量 对 应 于 它 来 自 每 个 组 的 概率 ， 而 且 通 过 贝 叶 斯 法 则 可 以 很 简单 的 计算 出 这 个 
向 量 。 对 于 血红 细胞 的 例子 ， 位 于 一 个 组 或 另 一 个 组 的 大 多 数 个 体 属于 该 组 的 概率 
都 接近 1。 但 也 有 一 定数 量 的 个 体 〈 靠 近 两 个 云 团 交 叉 的 地 方 ) 的 概率 接近 0.5 一 一 
也 就 是 说 ， 它 们 属于 哪 一 组 具有 不 确定 性 。 从 探索 数据 的 角度 来 看 ， 这 些 数据 点 可 
能 很 有 价值 并 值得 进一步 探测 和 更 仔细 的 研究 (因为 这 些 个 体 可 能 已 经 开始 串 有 铁 
缺乏 贫血 )。 


o 在 概率 框架 下 ， 选 择 似 然 和 EM 算法 分 别 作为 评分 函数 和 优化 过 程 是 很 自然 的 。 因 


为 这 样 除了 可 以 发 挥 大 量 现 有 算法 库 的 作用 外 ， 还 有 很 多 完善 的 理论 可 以 用 来 拟 合 
模型 参数 。 扩 展 MAP 和 贝 叶 斯 估计 允许 把 以 前 的 知识 结合 进来 》 也 相当 简单 。 


@ 基本 的 有 限 混合 模型 为 各 种 不 同 的 扩展 提供 了 很 好 的 理论 框架 。 举 例 来 说 ， 一 种 很 


有 价值 的 想法 是 加 入 第 (K+1) 个 噪声 分 量 ( 比 如 用 均匀 密度 )， 目 的 是 “ 拾 起 ”看 
起 来 不 属于 任何 其 他 KK 个 分 量 的 孤立 点 和 背景 点 ， 这 个 背景 分 量 所 对 应 的 权 zxr 可 
以 用 EM 算法 直接 从 数据 中 学 习 得 到 。 








EM 算法 : 284K 5 次 后 估计 出 的 模型 参数 


———— 
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EM 算法 : ER 1 次 后 估计 出 的 模型 参数 EM 算法 : 迭代 10 次 后 估计 出 的 模型 参数 
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EM 算法 : 选 代 2 次 后 估计 出 的 模型 参数 EM 算法 : 迭代 25 次 后 估计 出 的 模型 参数 
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图 9-11 对 图 9-10 中 的 血红 细胞 测量 数据 运行 EM 算法 的 例子 。 上 面 的 散 点 图 中 画 出 了 在 EM 算法 
的 各 个 不 同 阶段 时 两 个 拟 合 分 量 的 3o 协 方差 椭圆 和 均值 顺序 为 从 上 到 下 ， 从 左 至 右 ) 


© 可 以 把 这 种 方法 扩展 到 数据 并 非 是 p 维 向 量 的 形式 。 例 如 ， 我 们 可 以 在 同样 的 EM 
通用 框架 下 使 用 混合 的 概率 序列 模型 (比如 说 混合 马尔 可 夫 模 型 ) 来 聚 类 序列 ， 使 
用 混合 的 回归 模型 来 聚 类 曲线 ， 等 等 。 

这 些 优势 是 以 一 定 的 代价 得 来 的 。 主 要 的 代价 是 要 为 每 个 分 量 假定 参数 模型 。 对 于 很 多 
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问题 来 说 ， 事 先 很 难 知 道 分 布 的 形式 是 什么 。 因 此 ， 实 际 上 基于 模型 的 概率 聚 类 仅 适 用 于 我 
们 有 理由 相信 很 定 的 分 布 形式 很 合适 的 情况 。 对 于 前 面 的 血红 细胞 数据 ， 我 们 可 以 通过 可 视 
化 的 分 析 认为 正 态 的 假定 是 非常 合理 的 。 此 外 ， 既 然 两 个 测量 值 都 是 由 来 自 很 大 的 红细胞 样 
本 估计 出 的 均值 组 成 的 ， 所 以 基本 的 统计 理论 也 可 以 提示 我 们 正 态 分 布 的 假定 很 可 能 是 非常 
合适 的 。 

概率 方法 的 另 -… 个 不 足 是 相关 估计 算法 的 复杂 性 。 不 妨 把 EM 算法 和 天 -均值 算法 加 以 
比较 。 我 们 可 以 把 K- 均 值 算法 看 作 是 对 EM 算法 〈 当 其 应 用 于 正 态 混合 分 量 的 混合 模型 (其 
中 每 个 雁 类 的 协 方差 矩阵 都 被 假定 为 单位 和 矩阵) 时 〉 的 分 步 近似 。 然 而 ，K- 均 值 算法 并 不 一 
直 等 到 收敛 完 成 才 把 点 分 配 到 各 个 聚 类 ， 而 是 在 每 一 步 进行 分 配 。 


例 9.5 假定 我 们 有 一 个 数据 集 ， 其 中 的 每 个 变量 X AR 0/1 值 一 一 比如 说 来 
自 于 一 个 大 的 交易 数据 集 ，xF1 (或 0) 表示 一 个 顾客 购买 了 商品 j (或 者 没有 )。 
我 们 可 以 这 样 应 用 混合 模型 框架 ， 假 定 对 于 给 定 的 聚 类 k， 各 个 变量 是 条 件 独立 的 
(根据 9.2.7 节 的 讨论 )， 也 就 是 说 ， 我 们 有 : 


P 
pxx; 0) = [frry 
jel 
要 确定 适合 数据 的 模型 ， 只 要 确定 在 第 上 个 分 量 中 观察 到 第 j 个 变量 取 值 为 1 
的 概率 。 我 们 把 这 个 概率 表示 为 6j， 于 是 便 可 以 把 第 下 个 分 量 的 分 量 密度 写 为 : 
py (xj:8y) = Ox! A-0) > 1<k<K 
这 是 表示 在 混合 模型 的 第 大 个 分 量 中 观察 到 总 的 概率 的 一 种 很 方便 的 方式 . X(i) 
的 完全 混合 公式 就 是 这 些 分 量 分 布 的 加 权 和 : 


K 
PEO) = È ak pi XO3O,) (9.25) 
k=1 
K , eG 
= Dr [oy -ou (9.26) 
k=l j 


其 中 x(i) 表 示 顾 客 i 是否 购买 了 商品 j。 
这 个 模型 的 EM 公式 是 非常 简单 的 。 令 plk | 让 为 顾客 i 属于 聚 类 上 的 概率 。 概 
据 贝 叶 斯 法 则 ， 对 于 给 定 的 参数 0 集合 ， 这 个 概率 可 以 写作 : 


xi 1-x;(i) 
mT] egy 0-0) 

p(x(i)) 
HP, pRO 的 定义 和 公式 9.26 一 样 。 计 算 p (k1i) FLO (nK) ¥, BARA 
每 个 个 体 i 和 每 个 聚 类 进行 计算 .计算 这 些 隶 属 概率 相当 于 求解 这 个 问题 的 EE 
步骤 。 

M 步骤 就 是 在 已 知 一 个 顾客 属于 聚 类 大 的 前 提 下 ， 加 权 估 计 出 这 个 顾客 购买 商 

品 的 概率 : 


p(k li) = (9.27) 
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HEA TARP, (DRI p(k li) 加 权 的 ， 也 就 是 个 体 i 产 生 于 聚 类 上 的 概率 
(根据 模型 ) 个 体 i 购 买 特定 商品 j 就 相当 于 把 商品 按 比 例 ( 即 权 p(kKli),， 1 <k<K) 
分 配 到 KK 聚 类 模型 。M 步骤 需要 O (nKp) 次 操作 ， 因 为 分 子 上 的 加 权 求 和 是 针对 
所 有 n 个 个 体 的 ， 并 对 于 每 个 聚 类 k， 和 个 参数 中 的 每 一 个 (在 独立 的 模型 中 每 
个 变量 需要 一 轮 操 作 )。 如 果 我 们 在 EM 算法 中 进行 了 次 选 代 ， 那 么 基本 的 复杂 度 
就 是 O (IKnp)， 可 以 看 作 是 数据 算 阵 大 小 的 KIAE. 
然而 ， 对 于 现实 的 位 于 磁盘 上 的 庞大 数据 集合 来 说 ， 对 整个 次 数据 集 做 了 次 扫 
描 是 不 可 行 的 。 因 此 人 们 已 经 开发 出 了 概括 聚 类 表示 的 各 种 技术 ， 在 聚 类 过 程 中 这 
些 技术 实际 上 起 到 了 压缩 数据 集 的 作用 。 例如， 在 温 合 建 模 中 ， 很 多 数据 点 很 早 就 
“趋向 于 ” 某 个 分 量 ; 也 就 是 说 ， 它 们 隶属 于 这 个 分 量 的 概率 接近 于 1。 因 此 可 以 
更 新 这 些 点 的 隶属 关系 并 在 以 后 的 选 代 中 忽略 这 些 点 。 类 似 的 ， 如 果 一 群 点 的 隶属 
关系 始终 是 一 样 的 ， 那 么 用 一 个 简短 的 描述 来 表示 这 些 点 。 


为 了 对 概率 聚 类 加 以 总 结 ， 我 们 考虑 如 何 根据 数据 来 选取 最 佳 玉 值 的 问题 。 注 意 随 着 天 
( 聚 类 的 数量 ) 的 增长 ， 似 然 的 最 大 值 对 天 的 函数 是 不 会 下 降 的 。 因 此 ， 似 然 本 身 不 能 直 
接 告诉 我 们 从 天 的 角度 来 说 哪个 模型 最 接近 真实 的 数据 产生 过 程 。 而 且 ， 由 于 和 混合 似 然 
有 关 的 技术 原因 ， 通 常 的 假设 检验 方法 〈 例 如 检验 一 个 分 量 相对 两 个 分 量 的 效果 ， 两 个 相 
对 于 三 个 ， 等 等 ) 不 适用 。 然 而 ， 人 们 已 经 开发 出 了 很 多 其 他 的 巧妙 方法 ， 这 些 方法 很 大 
程度 上 是 以 对 理论 分 析 的 近似 为 基础 的 。 我 们 这 里 介绍 其 中 三 种 应 用 较 广 而 且 比较 通用 的 

ETA: 它 的 基本 思想 是 从 似 然 的 最 大 化 值 中 减 掉 一 项 。 其 中 贝 叶 斯 信息 判 据 〈BIC) 
应 用 得 很 广 。 这 里 


og” = (9.28) 


Sac (Mg) =2S1 (Or;MKJ+dKlogn (9.29) 


HB, SO MD 是 负 对 数 似 然 的 最 小 化 值 ，dx 是 参数 个 数 ， 二 者 都 是 相对 于 具有 K 个 分 量 
的 混合 模型 来 说 的 。 具 体 做 法 是 先 求 出 从 K=1 到 某 个 Knox 时 上 式 的 值 ， 然 后 把 对 应 于 最 小 
值 的 天 值 作为 最 可 能 的 值 。BIC 的 原始 推导 是 基于 回归 框架 中 的 极限 理论 ， 这 个 论据 和 混合 
建 模 并 不 严格 一 致 。 然 而 ， 已 经 发 现 这 个 技术 在 实践 中 的 效果 很 好 ， 而 且 具 有 比 下 面 将 介绍 
的 其 他 方法 计算 代价 小 的 优点 。 图 9-12 所 示 为 相对 血红 细胞 数据 的 BIC 评分 函数 曲线 ， 图 
中 指出 了 K=2 时 模型 最 佳 〈 回 忆 前 面 曾 指出 根据 独立 的 医学 知识 〈 化 验 ) 我 们 知道 这 些 数 
据 属 于 两 组 ， 所 以 这 个 结果 是 令 人 满意 的 )。 有 人 还 提出 了 很 多 其 他 的 惩罚 项 《参见 第 7 章 ) 
但 是 在 聚 类 中 BIC 似乎 是 使 用 最 广泛 的 。 

二 次 采样 技术 ， 我 们 还 可 以 利用 二 次 采样 的 思想 使 用 自 展 方法 或 者 是 交叉 验证 方法 来 估 
计 哪 个 K 值 是 最 佳 的 。 这 些 技术 的 不 足 是 明显 比 BIC 需要 更 大 的 运算 量 一 一 举例 来 说 ，10- 
折 交 又 验证 所 需 的 时 间 是 BIC 方法 的 10 倍 。 然 而 ， 这 些 方法 切实 的 提供 了 对 模型 质量 的 直 
接 评 估 ， 不 需要 像 BIC 方法 那样 作出 假定 。 
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图 9-12 ”对 数 似 然 分 数 和 BIC 分 数 相对 于 正 态 分量 数 目的 函数 曲线 。 所 针对 的 问题 是 
把 混合 模型 拟 合 到 图 9-11 所 示 的 血红 细胞 数据 


贝 叶 斯 近似 :完全 贝 叶 斯 解 需要 估计 分 布 p (KID) 一 一 也 就 是 每 个 玉 值 对 于 给 定数 据 的 
概率 ， 这 需要 以 普通 方式 对 参数 的 所 有 不 确定 性 进行 积分 。 当 然 这 在 实践 中 是 不 可 行 的 (不 
要 忘记 我 们 是 在 dx 维 空间 中 求 积 分 )， 因 此 人 们 寻找 了 很 多 种 不 同 的 近似 。 既 使 用 了 解析 的 
近似 方法 (比如 对 后 验 分 布 的 最 频 值 进行 拉 普 拉 斯 近似 〉 也 使 用 了 采样 技术 (比如 马尔 可 夫 
$E Monte Carlo)。 对 于 模型 中 有 很 多 参数 的 庞大 数据 集 ， 采 样 技术 在 运算 方面 来 讲 可 能 不 可 
行 ， 因 此 解析 方法 应 用 得 更 广泛 。 例 如 Cheeseman and Stutz (1996) 的 AUTOCLASS 算法 ， 
使 用 对 后 验 分 布 的 解析 近似 来 选取 模型 。 基 于 惩罚 的 BIC 函数 也 可 以 被 看 作 是 对 完全 贝 叶 
斯 方法 的 近似 。 

从 某 种 意义 上 来 讲 ， 建 立 在 混合 分 解 模 型 上 的 概率 建 模 比 聚 类 分 析 更 具 一 般 性 。 聚 类 分 
析 的 目的 就 是 产生 对 现 有 数据 的 一 个 划分 , 而 混合 分 解 产生 了 对 数据 潜在 分 布 的 完全 描述 (这 
个 分 布 是 由 很 多 分 量 构成 的 )。 一 旦 确定 了 这 些 分 量 的 概率 分 布 ， 那 么 就 可 以 把 数据 集中 的 
点 分 配 到 最 可 能 产生 它 的 聚 类 。 我 们 也 可 以 按 另 一 种 方式 来 看 这 个 问题 : 聚 类 分 析 的 目的 是 
把 数据 自然 的 划分 到 产生 它 的 区 域 ， 在 这 些 区 域 中 ， 各 个 点 很 接近 或 者 说 聚集 在 一 起 ， 从 而 
使 聚 类 之 间 出 现 相 对 稀 朴 的 区 域 。 从 概率 密度 的 角度 来 看 ， 这 相当 于 低 密度 的 谷底 分 隔 出 很 
多 高 密度 的 区 域 ， 所 以 从 根本 上 讲 这 个 概率 密度 函数 是 多 峰 的 〈multimodal)。 然 而 ， 混 合 分 
布 很 可 能 是 单 峰 的 ， 尽 管 它 是 由 几 个 分 量 组 成 的 。 

下 面 考虑 两 个 分 量 的 一 元 正 态 混合 模型 的 情况 。 显 然 ， 如 果 这 两 个 均值 是 相等 的 ， 
那么 这 个 模型 是 单 峰 的 。 事 实 上 ， 当 均值 不 等 时 这 个 混合 模型 为 单 峰 的 充分 条 件 〈 对 于 
所 有 的 混合 比例 ) 是 ,1 y-w|<2min (oi, 02)。 而 且 ， 对 于 均值 和 偏差 值 的 所 有 情况 在 二 
分 量 的 正 态 混合 模型 中 都 存在 某 些 混合 比例 值 使 这 个 混合 模型 是 单 峰 的 。 这 意味 着 如 果 
均值 足够 靠近 ， 那 么 就 只 存在 一 个 聚 类 ， 虽 然 存在 两 个 分 量 。 这 时 我 们 还 是 可 以 使 用 混 
合 分 解 来 进行 聚 类 ， 也 就 是 把 每 个 点 分 配 到 它 最 可 能 来 自 的 聚 类 ， 但 是 这 不 可 能 是 有 价 
值 的 聚 类 。 
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9.7 补充 读物 


Ross (1997) 介绍 了 参数 概率 建 模 ，Everitt and Dunn (1991) 介绍 了 多 元 数据 分 析 中 的 
一 般 概念 。 介 绍 混合 分 布 的 普通 教材 包括 Everitt and Hand (1981), Titterington, Smith and 
Makov (1985), McLachlan and Basford (1988)、 Bohning (1998) 和 McLachlan and Peel (2000). 
Diebolt and Robert (1994) 给 出 了 用 通用 贝 叶 斯 方法 进行 混合 建 模 的 一 个 例子 。 从 统计 角度 
讨论 图 形 模型 的 文献 包括 Whittaker (1990), Edwards (1995), Cox and Wermuth (1996) 和 
Lauritzen (1996). Pearl (1988) 和 Jensen (1996) 特别 从 表示 和 计算 角度 对 这 些 模型 进行 
了 讨论 ，Jordan (1999) 收编 了 有 关 从 数据 中 学 习 图 形 模型 的 最 新 研究 论文 。Friedman and 
Goldszmidt (1996) 和 Chickering, Heckerman and Meek (1997) 给 出 了 从 数据 中 学 习 图 形 
模型 的 详细 具体 算法 。Della Pietra and Lafferty (1997) 介绍 了 马尔 可 夫 随 机 场 在 文本 建 模 中 
的 应 用 ，Heckerman et al. (2000) 描述 了 使 用 马尔 可 夫 随 机 场 来 实现 基于 模型 的 协同 过 滤 
(collaborative filtering). Bishop, Fienberg and Holland (1975) 是 对 数 线性 模型 方面 的 标准 
参考 书 。 

目前 , 已经 有 很 多 关于 聚 类 分 析 的 著作 。 推 荐 读者 参考 Anderberg (1973), Späth (1985). 
Jain and Dubes (1988) 和 Kaufman and Rousseeuw (1990)。 分 切 (dissection〉 和 寻找 自然 划 
分 的 差异 不 总 是 很 容易 察觉 到 的 ， 然 而 这 个 差异 是 非常 重要 的 ， 因 此 不 该 忽视 。 区 分 这 两 种 
情况 的 著作 包括 Kendall (1980), Gordon (1981) 和 Späth (1985). Marriott (1971) 证 明 
了 对 于 多 元 均匀 分 布 的 最 佳 划 分 来 说 Ktr(W) 标 准 趋向 于 常量 。Krzanowski and Marriott 
(1995) 中 的 表 10-6 列 出 了 基于 W 的 各 种 聚 类 标准 的 更 新 (updating) 公式 。Gower (1974) 
开发 了 极 大 预测 分 类 方法 。Koontz, Narendra and Fukunaga (1975) 和 Hand (1981) 描述 了 
如 何 使 用 分 枝 定 界 思想 来 扩大 穷 举 方法 在 评估 可 能 聚 类 时 的 适用 范围 。MacQueen (1967) 
介绍 了 天 均值 算法 ，Hall and Ball (1965) 介绍 了 ISODATA 算法 。Kaufman and Rousseeuw 
(1990) 描述 了 一 种 变 体 ， 每 个 聚 类 的 中 心 点 是 聚 类 的 一 个 元 素 ， 而 不 是 元 素 的 矩 心 。Rao 
(1971) 回顾 了 应 用 在 聚 类 分 析 中 的 数学 规划 方法 的 早期 著作 ，Mangasarian (1996) 浏览 
了 这 方面 的 一 些 更 新 的 成 果 。 

关于 聚 类 分 析 的 单 连接 方法 的 最 早 著作 是 Florek et al. (1951), Sibson (1973) 对 推动 
这 一 思想 起 到 了 重要 作用 。Lance and Williams (1967) 给 出 了 通用 的 公式 ， 对 于 计算 目的 来 
说 是 很 有 价值 的 ， 同 时 作为 特例 介绍 了 单 连接 和 完全 连接 方法 。 育 类 分 析 的 中 值 方法 应 该 归 
功 于 Gower (1967). Lambert and Williams (1966) 描述 了 单 分 裂 划分 的 “关联 分 析 ” 方 法 。 
聚 类 分 析 的 多 分 裂 方 法 应 该 归功 于 MacNaughton-Smith et al. (1964)。 重 合 聚 类 方法 应 归功 
于 Shepard and Arabie (1979). 

当然 还 有 其 他 的 聚 类 形式 。 比 如 ，Karypis and Kumar (1998) 讨论 了 基于 图 的 聚 类 算法 。 
Zhang, Ramakrishnan and Livny (1997) 描述 了 适用 于 非常 庞大 数据 集 的 聚 类 框架 。 聚 类 的 
应 用 更 是 数 不 尽 的 。Lapointe and Legendre (1994) 使 用 聚 类 分 析 对 威士忌 酒 做 了 研究 。Eisen 
et al. (1998) 阐述 了 层次 凝聚 聚 类 在 基因 数据 上 的 应 用 。Zamir and Etzioni (1998) 介绍 了 
专门 用 于 聚 类 网 络 文档 的 聚 类 算法 。 

Titterington, Smith and Makov (1985) 和 McLachlan and Basford (1987) 以 混合 模型 为 
背景 讨论 了 概率 聚 类 。Banfield and Raftery (1993) 提出 了 一 种 新 的 想法 ; 通过 向 整个 空间 
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孤立 点 所 造成 的 聚 类 失真 。 以 下 著作 介绍 了 基于 模型 概率 聚 类 的 一 些 最 新 成 果 : Celeux and 
Govaert (1995), Fraley and Raftery (1998) 和 McLachlan and Peel (1998). Poulsen (1990). 
Smyth (1997), Ridgeway (1997) 和 Smyth (1999) 介绍 了 混合 模型 在 聚 类 序列 方面 的 应 用 。 
针对 参数 模型 的 基于 混合 曲线 Curves) 聚 类 最 早出 现在 Quandt and Ramsey (1978) 和 Späth 

(1979) 中 , 后 来 Gaffney and Smyth (1999) 将 其 推广 到 非 参数 模型 的 情况 。Jordan and Jacobs 

(1994) 介绍 了 一 种 对 标准 混合 方法 的 推广 ， 即 一 种 被 称 为 “mixtures of experts” 的 基于 混 
合 结构 ， 该 结构 为 函数 近似 提供 了 一 种 通用 的 基于 混合 方法 的 框架 。 

以 下 文献 介绍 了 混合 模型 分 量 数目 试验 和 有 关 研 究 ; Everitt (1981). McLachlan (1987) 
和 Mendell, Finch and Thode (1993). Shibata (1978) 给 出 了 对 BIC 判 据 的 早期 推导 。Kass and 
Raftery (1995) 概括 了 这 一 领域 的 一 些 最 新 成 果 ， 包 括 BIC 在 很 多 模型 选取 任务 中 的 应 用 。 
决定 混合 模型 分 量 数量 的 自 展 法 是 由 McLachlan (1987) 引入 的 ，McCulloch (1996) 和 
McLachlan and Peel (1997) 又 作 了 进一步 的 完善 。Smyth (2000) 介绍 了 针对 这 一 问题 的 交 
叉 验证 方法 。Cheeseman and Stutz (1996) 描述 了 一 种 针对 基于 模型 聚 类 问题 的 通用 贝 叶 斯 
HEA, Chickering and Heckerman (1998) 通过 试验 比较 了 不 同 贝 叶 斯 近似 方法 对 于 求解 分 量 
数 天 的 效果 。 

Neal and Hinton (1998), Bradley, Fayyad and Reina (1998) 和 Moore (1999) 介绍 了 用 
来 提高 基本 EM 算法 在 处 理 大 数据 集 时 速度 的 不 同 技术 。 

Cheng and Wallace (1993) 介绍 了 层次 凝聚 聚 类 的 一 个 有 趣 应 用 ， 对 地 球 大 气 层 的 空间 
测量 数据 进行 聚 类 。Smyth, Ide and Ghil (1999) 利用 正 态 混合 模型 给 出 了 分 析 这 些 数据 的 必 
一 种 方法 ， 并 且 使 用 交叉 验证 似 然 给 出 了 对 Cheng 和 Wallace 得 到 聚 类 的 定量 验证 。McLaren 

(1996) 描述 了 血液 学 中 的 混合 模型 。Wedel and Kamakura (1998) 以 非常 广 的 视角 浏览 了 
混合 模型 在 客户 建 模 和 市 场 方面 的 大 量 应 用 。Cadez et al. (2000) 描述 了 马尔 可 夫 混 合 模型 
在 聚 类 网 络 文档 方面 的 应 用 《以 来 自 大量 网 络 日 志 中 的 页 面 请 求 序列 为 基础 )。 

Smyth (1994) 更 详细 地 描述 了 图 9-4 的 天 线 数据 ，Cadez et al. (1999) 介绍 了 图 9-10 

中 的 血红 细胞 数据 。 
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第 10 章 ”用 于 分 类 的 预测 建 模 


10.1 预测 建 模 概览 


第 9 章 中 讨论 的 描述 建 模 就 是 对 数据 进行 概括 ， 从 而 可 以 更 方便 地 使 用 数据 ， 或 者 可 以 
使 我 们 更 好 的 理解 事物 的 运转 机 制 。 相 对 而 言 ， 预 测 建 模 的 目标 更 加 明确 ;其 目的 就 是 在 给 
定 其 他 变量 值 的 条 件 下 对 我 们 感 兴趣 的 未 知 变量 值 做 出 预测 。 这 样 的 例子 包括 ， 根 据 患 者 的 
一 系列 化 验 结果 给 出 对 他 的 诊断 ;在 已 知 顾客 购买 了 其 他 商品 的 前 提 下 ， 佑 计 出 他 们 购买 产 
品 A 的 概率 ， 或 者 给 定 目 前 和 过 去 的 道 。 琼 斯 指数 值 ， 预 测 出 从 现在 开始 在 将 来 6 个 月 中 
该 指数 的 值 。 

在 第 6 章 中 我 们 讨论 了 很 多 可 以 用 作 预 测 模型 的 基本 函数 形式 。 在 这 一 章 和 下 一 章 中 ， 
我 们 将 更 详细 的 分 析 这 些 模型 ， 并 讨论 把 这 些 模型 拟 合 到 数据 上 的 具体 算法 和 判 据 。 

可 以 把 预测 建 模 看 作 是 学 习 一 种 映射 ， 这 种 映射 把 输入 测量 向 量 x 的 集合 映射 到 标量 
的 输出 》〈 也 可 以 把 输出 映射 为 向 量 ， 但 是 在 实践 中 标量 的 情况 更 普遍 )。 在 预测 建 模 中 ， 
训练 数据 Dran 是 由 测量 对 (pairs) 构成 的 ， 每 个 对 由 一 个 向 量 x(i) 和 一 个 对 应 的 “目标 ” 
值 y (D 〈1<i 生 四 组成。 因此， 预测 建 模 所 要 做 的 就 是 根据 训练 数据 估计 出 一 种 映射 或 者 
函数 =f Cs6)， 可 以 在 给 定 测量 值 输入 向 量 x 和 模型 /的 参数 9 的 情况 下 预测 出 y 值 。 回 
忆 前 面 讨论 过 的 内 容 ，f 是 模型 结构 的 函数 形式 (第 6 章 )，6 是 了 中 的 未 知 参数 ，6 值 是 
通过 在 数据 上 最 小 化 一 个 合适 的 评分 函数 《第 7 章 ) 来 确定 的 ， 而 搜索 最 佳 9 值 的 过 程 实 
际 上 就 是 数据 控 掘 算法 的 基本 部 分 〈 第 8 章 )。 因 此 我 们 需要 作出 三 项 选择 ， 一 种 特定 的 
模型 结构 〔 或 一 族 模型 结构 )， 一 个 评分 函数 和 一 种 用 来 在 一 族 模型 中 发 现 最 佳 参数 和 模 
型 的 优化 策略 。 

在 数据 挖掘 问题 中 ， 由 于 我 们 事先 对 函数 fx;6) 的 形式 知之 甚 少 ， 所 以 为 了 选取 比较 灵 
活 的 函数 形式 或 模型 是 有 吸引 力 的 。 另 一 方面 ， 正 如 第 6 章 中 所 讨论 的 ， 较 简单 的 模型 具有 
更 加 稳定 和 更 易于 解释 的 优势 ， 而 且 还 经 常 可 以 为 更 复杂 的 模型 结构 提供 函数 分 量 。 对 于 预 
测 建 模 来 说 ， 评 分 函数 的 定义 通常 是 相当 直接 的 ， 它 的 典型 定义 就 是 模型 了 (i) = 了 (x (D;6 ) 的 
预测 值 与 y() 的 真实 值 之 间 差异 的 函数 一 一 即 : 

S$(0)= $ dv, 5@) 


Prin (10.1) 


= ¥'d(y(i), fF (x0):0)) 
D train 

其 中 ， 累 加 是 针对 训练 数据 集 Dran 中 各 个 元 组 (tuples) (x ( i );y @) K, Rad 则 定 
义 一 种 标量 性 的 距离 ， 比 如 对 y 取 实 数值 的 情况 可 以 使 用 误差 平方 ， 对 y 为 范畴 型 变量 的 情 
况 下 可 以 使 用 一 种 指示 函数 (关于 这 部 分 内 容 的 详细 讨论 请 参见 第 7 章 )。 接 下 来 数据 挖掘 
算法 的 核心 问题 实际 就 是 使 函数 S 相对 6 最 小 化 ， 这 个 最 小 化 过 程 的 细节 是 由 距离 函数 的 特 
征 和 f(x; 9 ) 的 函数 形式 共同 决定 的 ， 因 为 二 者 共同 决定 了 s 如 何 依赖 于 9 (参见 第 8 章 的 


U 


讨论 )。 

为 了 比较 各 个 预测 模型 ， 我 们 需要 估计 它们 对 于 “样本 外 数据 ”的 性 能 ， 所 谓 “ 样 本 外 
数据 ”就 是 没有 被 用 来 构建 模型 的 数据 〈 否 则 ， 就 像 前 面 所 讨论 的 ， 估 计 出 的 性 能 很 可 能 是 
有 偏 的 )。 这 种 情况 下 ， 我 们 可 以 重新 定义 评分 函数 9 (8 )， 并 在 验证 数据 集 上 估计 模型 的 性 
能 , 也 可 以 使 用 交叉 验证 (cross-validation) 或 者 惩罚 性 的 评分 函数 (penalized score function), 
总 之 不 能 直接 在 训练 数据 上 估计 模型 的 样本 外 性 能 (如 第 7 章 中 所 讨论 的 )。 

我 们 在 第 6 章 中 曾经 指出 ， 根 据 了 是 范畴 型 的 还 是 实数 型 的 ， 可 以 把 预测 建 模 分 成 两 种 
不 同 的 主要 任务 。 对 于 范畴 型 的 Y， 称 其 为 分 类 (classification) (或 者 叫 有 指导 的 分 类 

(supervised classification)， 目 的 是 区 别 于 那些 按 第 一 个 实例 定义 类 的 问题 ， 比 如 聚 类 分 析 ); 

对 于 了 取 实 数值 的 情况 ， 称 其 为 回归 (regression)。 本 章 集中 讨论 分 类 问题 ， 下 一 章 将 集中 
讨论 回归 问题 。 尽 管 我 们 可 以 在 同一 个 通用 的 框架 下 同时 讨论 这 两 种 形式 的 建 模 (它们 都 建 
立 在 很 多 相同 的 数学 和 统计 基础 之 上 )， 但 是 为 了 内 容 组 织 的 方便 我 们 把 分 类 和 回归 各 立 一 
章 。 有 必要 提醒 读者 ， 本 章 中 讨论 的 很 多 模型 结构 都 有 一 种 适用 于 下 一 章 的 回归 问题 的 对 应 
形式 。 例 如 ， 我 们 在 这 一 章 中 讨论 的 树 结构 也 可 以 用 于 回归 。 同 样 ， 我 们 在 回归 中 讨论 神经 
网 络 ， 但 它 也 可 用 于 分 类 。 

在 这 两 章 中 ， 我 们 覆盖 了 许多 用 于 分 类 和 回归 问题 的 流行 方法 一 一 模型 结构 -评分 函数 - 
优化 技术 这 三 者 的 常用 组 合 。 这 些 算 法 的 分 类 特征 往往 是 和 用 于 预测 的 模型 结构 〈 比 如 树 结 
构 、 线 性 模型 、 多 项 式 等 等 ) 密切 联系 的 ， 从 而 使 本 章 大 体 上 是 根据 不 同 的 模型 结构 来 划分 
的 。 尽 管 模型 、 评 分 函数 和 优化 策略 的 某 些 特定 组 合 已 经 很 流行 《标准 的 ”数据 挖掘 算法 )， 
但 要 记 住 ， 第 5 章 介绍 的 数据 挖掘 算法 中 的 通用 化 哲学 是 很 重要 的 ;因为 对 于 一 个 特定 的 数 
据 挖掘 问题 我 们 总 是 应 该 根据 具体 的 应 用 来 谨慎 地 选择 裁剪 模型 、 评 分 函数 和 优化 策略 ， 而 
不 是 把 现成 的 技术 照搬 照抄 。 





10.2 分 类 建 模 简介 


第 6 章 中 我 们 介绍 了 用 于 分 类 的 预测 模型 ， 这 里 我 们 简要 回顾 一 些 基本 概念 。 在 分 类 问 
题 中 ， 我 们 希望 学 习 到 一 种 从 测量 值 向 量 x 到 分 类 变量 了 的 映射 。 这 个 被 预测 的 变量 通常 被 
称 为 分 类 变量 (class variable) (理由 显而易见 )， 而 且 为 了 表示 的 方便 在 本 章 的 其 余部 分 我 
们 将 使 用 变量 C (而 不 是 用 了 ) 来 表示 这 个 分 类 变量 ，C 的 取 值 为 {c/，…, Cn }。 观 察 或 测量 
到 的 变量 X,…,X, 有 多 种 称呼 ， 比如 特征 、 属 性 、 解 释 (explanatory) 变量 、 输 入 变量 等 等 
一 在 本 章 中 我 们 则 使 用 输入 (input) 变量 这 一 通用 术语 。 我 们 用 x 表示 p 维 向 量 ( 就 是 说 ， 
我 们 用 它 代表 p 个 变量 )， 它 的 每 一 个 分 量 可 以 是 实数 型 、 序 数 型 、 范 畴 型 等 等 。xj (i) 是 第 i 
个 输入 向 量 的 第 j 个 分 量 ， 其 中 1<i<n, 1<j<p. ERMINE, 我 们 隐 含 假定 
使 用 “0-1” 损 失 函 数 〈 参 见 第 7 章 ) 作为 评分 函数 ， 也 就 是 不 管 正确 的 分 类 和 预测 出 的 分 
类 是 什么 ， 我 们 认为 ， 正 确 预 测 的 损失 是 0， 错 误 分 类 预测 的 损失 是 1。 

焉 面 将 从 两 种 不 同 但 又 相关 的 分 类 观点 开始 ;决策 边界 〈 或 者 判别 ) 观点 和 概率 观点 。 


10.2.1 判别 分 类 和 决策 边界 


在 判别 框架 下 , 分 类 模型 的 输入 为 以 向 量 x 表 示 的 测量 值 ,产生 的 输出 是 集合 lc，… Cm} 
中 的 一 个 符号 。 下 面 以 一 个 仅 有 两 个 实数 值 输入 变量 X 和 X 的 简单 问题 为 例 考虑 映射 函数 
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的 特征 。 映 射 实际 上 是 在 (XX,X,) 平面 上 产生 一 个 分 段 的 固定 曲面 ; 也 就 是 说 ， 仅 在 一 定 的 
区 域内 曲面 的 取 值 为 cl。 取 值 为 c 的 所 有 区 域 的 联合 称 为 c1 类 的 决策 区 域 (decision region); 
就 是 说 ， 如 果 输 入 的 x) 落 入 这 个 区 域 ， 那 么 它 的 分 类 就 被 预测 为 cj (并且 这 个 区 域 的 补 
(complement) 是 所 有 其 他 类 的 决策 区 域 )。 

知道 了 决策 区 域 在 (Xi, XO 平面 中 的 位 置 等 价 于 知道 了 各 区 域 间 的 决策 边界 (decision 
boundary) 或 者 决策 曲面 〈decision surface)。 因 此 我 们 可 以 把 学 习 分 类 函数 的 问题 看 作 
学 习 各 分 类 之 间 决 策 边 界 的 问题 。 在 这 个 前 提 下 ， 我 们 可 以 从 考虑 可 用 来 描述 决策 边界 的 
数学 形式 入 手 ， 比 如 直线 或 平面 (线性 边界 )、 低 次 多 项 式 这 样 的 弯曲 边界 或 者 其 他 特殊 

大 多 数 现实 的 分 类 问题 中 ， 各 个 类 在 空间 X 中 是 不 可 能 被 完全 分 割 的 。 也 就 是 说 ， 在 
X 的 某 些 〈 或 许 所 有 ) 值 处 出 现 的 成 员 可 能 属于 多 个 类 一 一 尽管 各 类 的 成 员 在 任何 给 定 的 x 
值 处 发 生 的 概率 是 不 同 的 。( 正 是 因为 概率 不 同 ， 才 使 我 们 可 以 作出 分 类 。 概 括 地 讲 ， 我 们 
就 是 把 点 x 分 配 到 它 最 可 能 属于 的 类 别 。) SPR “OB” KSB TF AR 
类 问题 的 方式 ， 不 再 把 注意 力 集中 于 决策 曲面 ， 而 是 寻找 一 个 使 类 别 间 的 某 个 分 割 尺度 最 大 
ALR BLS (x: 6 )。 这 样 的 函数 被 称 为 判别 函数 (discriminant functions )。 事实 上 ， 最 早 的 正 
式 分 类 方法 费 歌 尔 线性 判别 分 析 方 法 〈Fishers linear discriminant analysis method ) 
(Fisher,1936) 一 一 就 是 完全 基于 这 种 思想 的 ， 它 寻找 变量 x 的 线性 组 合 ， 以 使 各 个 两 个 ) 
类 别 间 的 差异 最 大 化 。 


10.2.2 分 类 的 概率 模型 


设 pc 为 随机 选取 的 对 象 或 个 体 i 来自 ci 类 的 概率 。 如 果 假定 各 个 分 类 互 不 包含 并 且 没 
有 遗漏 ， 那 么 Zip(cy = 1。 但 是 事实 并 非 总 是 如 此 一 一 例如 ， 如 果 一 个 人 患 有 一 种 以 上 的 疾 
病 〈 各 个 类 是 互相 包含 的 )， 那 么 我 们 可 以 把 这 个 问题 模型 化 为 多 个 一 分 类 问题 “ 患 有 或 没 
有 患 有 疾病 1”，“ 患 有 或 没有 患 有 疾病 2” 等 等 )。 可 能 还 有 一 种 疾病 没有 在 我 们 的 分 类 模型 
中 《 即 类 别 集合 是 不 完全 的 )， 在 这 种 情况 下 我 们 可 以 向 模型 中 加 入 一 个 额外 类 别 cc， 对 应 
于 “所 有 其 他 的 疾病 ”。 尽 管 这 些 潜在 的 实践 复杂 性 是 客观 存在 的 ， 但 是 除非 特别 指出 ， 我 
们 在 这 一 章 中 都 使 用 “ 互 不 包含 和 没有 遗漏 ”这 一 假定 ， 因 为 这 是 被 实践 所 广泛 接受 的 ， 而 
且 是 概率 分 类 的 核心 基础 。 

设想 有 两 种 类 别 : 男性 和 女性 ， 并 用 plc Chel, 2) 来 表示 在 受精 时 一 个 人 接受 到 适 
当 的 染色 体 而 成 为 男性 或 女性 的 概率 。 因此 如 果 我 们 根本 没有 任何 其 他 关于 个 体 i 的 信息 ( 没 
有 测量 值 x(i)), 那么 p (cb 就 是 个 体 i 属 于 分 类 cx 的 概率 。 有 时 把 这 个 p (c) KA m 类 的 “ 先 
验 概率 ”因为 它 代表 了 在 观察 到 向 量 x 之 前 的 类 隶属 关系 概率 。 在 很 多 情况 下 从 数据 中 舍 
itp (co 都 是 相当 简单 的 ， 如 果 已 经 抽取 了 总 体 的 随机 样本 ， 那 么 p (cb 的 最 大 似 然 估计 就 
是 c, 在 训练 数据 集中 发 生 的 频率 。 当 然 ， 如 果 已 经 采用 其 他 的 样本 模式 ， 事 情 可 能 更 复杂 一 
些 。 例 如 ， 在 一 些 医疗 问题 中 故意 的 从 每 一 个 类 别 中 抽取 等 数量 的 样本 是 很 常见 的 ， 这 样 就 
必须 使 用 某 种 其 他 的 手段 来 估计 这 些 先 验 概率 了 。 

我 们 假定 属于 类 别 的 对 象 或 个 体 的 测量 向 量 x 符合 某 种 分 布 或 密度 函数 忆 Bice 6)， 
其 中 6 ,是 未 知 的 参数 ， 它 控制 了 c 类 的 特征 。 例 如 ， 对 于 多 变量 的 实数 值 数据 ， 可 以 假定 
每 个 类 别 的 模型 结构 都 是 多 元 正 态 分 布 ， 而 且 参 数 & 代表 每 个 类 的 均值 位置) MAE Cb 
ED 特征 。 如 果 各 个 均值 离 的 足够 远 ， 而 且 方差 足够 小 ， 那 么 我 们 可 以 希望 各 个 类 在 输入 空 
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间 中 是 被 充分 分 隔 的 〈well separated )， 这 使 分 类 的 误 分 类 率 〈 或 错误 率 ) 很 低 。 通 常 的 问 
题 是 预先 既 不 知道 x 分 布 的 函数 形式 又 不 知道 分 布 的 参数 。 
一 且 已 经 估计 出 了 palce 0) 分布 ， 那 么 我 们 就 可 以 应 用 贝 叶 斯 定理 得 到 后 验 概率 : 
P(x Ic, 8) pc) 
> pa lc) plc) 


后 验 概率 p (cdx, 0) 隐 含 的 把 输入 空间 x 分 割 成 m 个 决策 区 域 ， 每 个 决策 区 域 具有 相 
应 的 决策 边界 。 例 如 ， 对 于 一 分 类 的 情况 (m=2)， 决 策 边 界 就 是 p (cllx,0 ) = p (czlx,93) 的 
轮廓 线 。 注 意 如 果 我 们 能 知道 真实 的 后 验 分 类 概率 〈 而 不 是 不 得 已 估计 出 它们 )， 我 们 就 
可 以 对 给 定 的 测量 x 做 出 最 优 的 预测 。 例 如 ， 对 于 所 有 错误 都 导致 相等 损失 的 情况 ， 我 们 
应 该 把 后 验 概率 p (cdx) 最 高 的 类 别 cx 作为 对 任意 给 定 的 x 值 类 别 预 测 〈 因 为 这 个 类 别 最 
可 能 产生 这 个 数据 )。 我 们 说 这 种 方案 最 优 ， 是 从 没有 其 他 的 预测 方法 可 以 做 的 更 好 这 个 
意义 上 来 讲 的 一 一 所 以 这 并 不 意味 这 种 方法 不 会 产生 预测 错误 。 事 实 上， 在 大 多 数 实际 的 
问题 中 ， 最 优 分 类 方案 的 错误 率 都 不 为 0， 这 是 由 分 布 P (xlc ,9 ) 的 重合 所 导致 的 。 这 种 
重 和 者 意味 着 属于 某 一 类 的 最 大 概率 p (cx) 二 1， 因此 尽管 x 点 的 最 优 分 类 决策 是 选取 cu， 
但 是 x 点 的 数据 来 自 其 他 类 的 概率 1-p (cxlx) 是 不 为 0 的 (可 能 性 较 小 )。 把 这 一 讨论 扩展 
到 整个 分 类 空间 , 并 相对 x 平均 (或 者 对 离散 值 的 变量 求 和 ), 便 得 到 了 贝 叶 斯 误差 率 (Bayes 
Error Rate): 


1<kSm (10.2) 





p(cy|X) = 





Pp = | 0- max p(c,|3)) pod (10.3) 


这 是 可 能 的 最 小 误差 率 。 没 有 其 他 分 类 器 可 以 对 新 的 未 见 过 数据 达到 更 低 的 预期 误差 
率 。 在 实践 中 ， 贝 叶 斯 误差 是 求解 问题 的 可 能 最 佳 分 类 器 的 误差 下 限 。 


例 10.1 图 10-1 显示 了 一 个 简单 的 假想 例子 ， 在 这 个 例子 只 有 一 个 预报 变量 
X (水平 轴 ) 和 两 种 分 类 。 上 部 的 两 幅 图 分 别 显示 了 数据 是 如 何在 类 别 1 和 类 别 2 
中 分 布 的 。 这 两 幅 图 显示 了 分 类 的 联合 概率 和 变量 X 的 关系 pa, cx)，k=1,2。 两 者 
都 相对 于 义 的 一 定 范围 具有 均匀 的 分 布 ; 类 别 cl HRS c, 趋 向 于 县 有 较 小 的 x 值 。 
沿 x 轴 有 一 个 区 域 (Ah x, Fe x, 2) 是 被 两 个 类 都 改 盖 的 。 

直 图 显示 了 类 别 ci 的 后 验 分 类 概率 plcilx)， 它 是 根据 上 面 两 幅 图 中 给 定 的 类 
分 布 通过 贝 叶 斯 法 则 计算 的 。 对 于 x&xi 的 X 值 ， 后 验 概率 为 1 (因为 在 这 个 区 域 
仅 有 类 别 2 可 以 产生 数据 )， 对 于 > 加 的 X 值 ， 后 验 概率 是 0 (因为 仅 有 分 类 2 
可 以 产生 这 一 区 域 的 数据 )， 重 登 区 域 (f xn Zi) 的 后 验 概率 大 约 是 113( 根 
据 贝 叶 斯 法 则 )， 因 为 类 别 2 在 这 个 区 域 的 可 能 性 大 约 是 类 别 1 的 两 倍 。 因 此 ， 
对 于 任何 X> 总 的 入 值 ， 贝 叶 斯 最 优 决策 是 类 别 cy (那些 p(x, ci) 和 p(x, c2) 都 为 0 
的 区 域 是 没有 意义 的 ， 这 些 区 域 的 后 验 概率 是 未 定义 的 )。 然 而 ， 注 意 在 x, 和 x, 
间 ， 关 于 这 一 区 域内 的 一 个 给 定 x 值 应 该 属于 哪个 类 别 存 在 一 种 根本 的 模棱两可 
性 ;也 就 是 说 ， 尽 管 上 是 更 有 可 能 的 分 类 ， 但 是 仍 有 1/3 的 机 会 属于 coe FRE, 
既然 在 这 个 区 域 存在 1/3 的 可 能 作出 错误 的 决策 ， 而 且 我 们 从 图 中 可 以 推测 出 x 
值 落 入 这 一 区 域 的 机 会 是 大 约 是 20%， 那 么 这 个 问题 的 贝 叶 斯 误差 率 的 大 约 为 
20/3 = 6.67%. 
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图 10-1 ”演示 后 验 分 类 概率 的 一 个 简单 例子 。 这 个 问题 只 涉及 两 种 分 类 ， 而 且 输 入 是 一 维 的 


现在 考虑 x 为 二 元 并 且 一 个 类 的 成 员 完 全 被 其 他 类 的 成 员 包 围 的 情况 。 在 这 种 情况 下 ， 
两 个 X 变量 中 没有 一 个 可 以 单独 产生 具有 0 误差 率 的 分 类 规则 ， 但 是 基于 两 个 变量 的 联合 规 
则 可 能 达到 0 误差 率 〔 如 果 使 用 了 合适 的 模型 )。 在 实践 中 经 常会 发 生 类 似 的 情况 不 过 很 
少 有 达到 0 误差 率 这 么 极端 的 情况 )， 新 的 变量 加 入 了 信息 ， 所 以 我 们 可 以 通过 加 入 额外 的 
变量 来 降低 贝 叶 斯 误差 率 。 这样 便 提出 一 个 问题 ; 我 们 为 什么 不 干脆 在 分 类 问题 中 增加 测量 ， 
直到 误差 率 足够 低 ?这 个 问题 的 答案 就 是 第 4 章 和 第 7 章 中 讨论 的 偏差 -方差 (bias-variance) 
原则 。 尽 管 如 果 我 们 向 模型 中 加 入 更 多 的 变量 ， 那 么 贝 叶 斯 误差 率 会 停留 在 同一 个 值 处 或 者 
降低 ， 但 是 事实 上 我 们 不 知道 最 优 的 贝 叶 斯 分 类 器 或 贝 叶 斯 误差 率 。 我 们 必须 根据 有 限 的 训 
练 数据 集 评估 分 类 规则 。 如 果 变 量 数 增多 了 而 训练 数据 的 点 数 不 变 ， 那 么 训练 数据 表示 潜在 
分 布 的 精度 就 更 差 了 。 增 加 变量 是 可 能 使 由 叶 斯 误差 率 下 降 ， 但 是 我 们 对 它 的 近似 更 差 了 。 
当 变 量 数 上 升 到 某 一 点 后 ， 我 们 对 潜在 分 布 近似 的 不 足 胜 过 了 贝 叶 斯 误差 率 的 降低 ， 因 此 分 
类 规则 开始 退化 。 

正确 的 做 法 是 谨慎 的 选取 变量 ， 我 们 需要 的 变量 是 把 它们 放 在 一 起 时 可 以 很 好 地 分 
割 各 个 类 别 。 寻 找 合适 的 变量 〈 或 者 少数 的 特征 一 一 变量 的 组 合 ) 是 实现 有 效 分 类 的 关 
键 。 对 于 复杂 的 和 潜在 维 数 很 高 的 数据 〈 比 如 图 像 ) 这 一 点 更 加 突出 ， 在 这 些 问题 中 人 
们 公认 发 现 合 适 的 特征 对 分 类 精度 的 作用 远 远 超过 了 选取 不 同 的 分 类 模型 可 能 造成 的 影 
响 。 在 这 一 背景 下 ， 一 种 数据 驱动 的 方法 是 使 用 像 交 叉 验证 误差 率 这 样 的 评分 函数 来 引 
导 搜 索 寻 找 特征 组 合 一 一 当然 ， 对 于 某 些 分 类 器 这 可 能 需要 非常 高 的 运算 开销 ， 因 为 可 
能 需要 对 每 个 要 分 析 的 子 集 重新 训练 分 类 器 ， 而 且 这 些 子 集 的 数量 是 p (变量 数 〉 的 组 
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10.2.3 ”建立 实际 的 分 类 器 

尽管 这 个 框架 从 理论 角度 给 出 了 分 类 的 内 部 细节 ， 但 是 它 没有 提供 分 类 建 模 的 规范 框 
架 ， 也 就 是 说 ， 它 没有 告诉 我 们 如 何 构建 分 类 器 ， 除 非 我 们 恰好 完全 知道 p (alc, ) 的 函数 形 
式 〈 这 在 实践 中 是 很 少见 的 )。 我 们 可 以 列 出 三 种 基本 的 方法 : 


w 
> 


1. 判别 法 : 在 这 种 方法 中 直接 对 决策 边界 建 模 一 一 也 就 是 说 ， 直 接 把 输入 x 映射 到 m 
个 类 标签 cj，…，cw 之 一 。 根 本 不 直接 尝试 对 分 类 条 件 或 后 验 分 类 概率 建 模 。 这 种 方法 的 例 
子 包 括 感知 器 (参见 10.3 节 ) 和 更 具 一 般 性 的 文 持 向 量 机 (参见 10.9 节 )。 

2. 回归 法 : 在 这 种 方法 中 显 式 地 建立 分 类 的 后 验 概率 模型 ， 并 且 选 取 这 些 概率 中 的 最 
大 值 (可 能 通过 一 个 代价 函数 加 权 ) 用 作 预 测 。 在 这 个 范畴 里 最 广泛 应 用 的 技术 被 称 为 logistic 
回归 ， 我 们 将 在 第 10.7 节 中 讨论 。 注 意 决策 树 (例如 第 5 章 中 的 CART) BRAT RATE 
法 〈 如 果树 仅 在 每 个 叶子 节点 给 出 预测 分 类 )， 又 可 被 看 作 回归 法 《如 果树 还 在 每 个 叶子 他 
点 处 提供 后 验 分 类 概率 的 分 布 )。 

3. 分 类 -条 件 法 : 这 种 方法 显 式 的 建立 分 类 的 条 件 分 布 palee 60， 并 且 和 对 mca 的 
估计 一 起 利用 贝 叶 斯 法 则 (公式 10.2) 推导 出 每 种 分 类 cx 的 p(cilx)， 然 后 选取 其 中 的 最 
大 值 (可 能 被 代价 加 权 )， 就 像 回 归 法 那样 。 我 们 可 以 把 这 种 模型 叫做 “产生 ”模型 ， 因 
为 我 们 精确 地 指出 了 (通过 p aieh) 每 个 类 的 数据 是 如 何 产生 的 。 使 用 这 种 方法 的 分 
类 器 有 时 也 被 称 为 贝 叶 斯 分 类 器 ， 因 为 它 使 用 了 贝 叶 斯 定理 ， 但 是 从 第 4 章 讨 论 的 贝 叶 
斯 参数 估计 的 正规 含义 来 看 它们 不 一 定 是 中叶 斯 的 。 在 实践 中 ， 用 在 公式 10.2 中 的 参数 
估计 人 经常 是 通过 每 个 分 类 ci 的 最 大 似 然 估 计 出 的 ， 然 后 再 “插入 ”到 pp Gale, ,8 中。 
还 有 一 种 可 选 的 贝 叶 斯 方法 是 对 6, 求 平均 。 此 外 ，p (ale, 8 ) 的 函数 形式 非常 广泛 一 一 任 
何 参数 的 《例如 正 态 )， 准 参数 的 〈 例 如 有 限 混合 )， 或 非 参数 的 〈 比 如 ， 核 函数 ) 模型 
都 可 以 用 来 估计 p (xlcs 69.)。 而 且 从 理论 上 讲 ， 可 以 为 每 个 类 cs 使 用 不 同 的 模型 结构 〈 例 
如 可 以 用 正 态 密度 来 对 o 类 建 横 ， 用 指数 混合 来 对 c, 类 建 模 ， 用 核 密度 估计 来 对 cs 类 建 
模 )。 





例 10.2 选取 最 可 能 的 类 别 通常 等 价 于 选取 大 的 值 使 判别 函数 gx) = plex) IR 
大 化 , 1m. 很 多 时 候 把 判别 式 重 新 定义 ( 通过 贝 叶 斯 法 则 ) 成 g(x)=log p(xic, p(c,) 
BADR, HFS ATBUABIE x， 一 种 普遍 使 用 的 分 类 条 件 模型 是 第 9 章 中 讨论 
的 多 元 正 态 模型 。 如 果 我 们 对 正 态 多 元 密度 函数 取 对 数 (以 e AA) HARRE 
会 上 的 项 ， 便 得 到 了 以 下 形式 的 判别 函数 : 


1 -1 
BX) =— (AH) Dy (x= Hy) -Z log! Ly 1-log p(ck) 1<k<m (10.4) 


一 般 的 情况 下 ， 每 一 个 g,(X) 包 含 各 个 x 变量 的 二 次 项 和 成 对 的 乘积 。 任 何 两 
个 分 类 上 和 1 的 决策 边界 是 由 关于 多 的 方程 式 gi (x) - g/(X) =0 所 定义 的 ， 而 且 通常 
这 也 是 x 的 二 次 方程 。 因此， 多 元 正 态 分 类 条 件 神 型 通常 产生 二 次 的 决策 边界 。 实 
际 上 ， 如 果 限 制 每 个 分 类 k 的 协 方差 矩阵 是 一 样 的 (Zi= 忆 )， 那 么 很 容易 证 明 此 时 
函数 g (X) 被 简化 为 x 的 线性 函数 ， 并 且 产 生 的 决策 边界 是 线性 的 【也 就 是 ， 它 们 
定义 了 pp 维 空间 的 超 平面 )。 

图 10-2 显示 了 用 多 元 正 态 分 类 模型 拟 合 第 9 章 的 血红 细胞 数据 的 结果 。J、2x 
和 p(ci) 的 最 大 似 然 估 计 (参见 第 4 章 ) 是 使 用 来 自 两 个 分 类 k=1，2 的 数据 得 到 的 ， 
然后 再 把 这 些 估 计 播 入 贝 叶 斯 法 则 来 确定 后 验 硫 率 子 数 plex). BAT 以 看 到 得 到 
的 决策 边界 形式 上 确实 是 二 次 的 ， 这 和 理论 分 析 是 一 致 的 ( 务 出 的 另 两 条 后 验 概率 
等 离线 也 是 如 此 )。 注 意 等 高 线 沿 着 从 健康 类 ( 图 中 的 又 号 ) 均值 向 外 的 方向 下 降 
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的 相当 快 。 因 为 健康 类 (ci 类 ) 通常 比 贫血 类 (c, 类 ， 图 中 的 圆圈 ) 具有 更 小 的 方 
差 ， 所 以 最 优 的 分 类 器 ( 假定 正 态 模型 ) 产生 的 决策 边界 完全 包围 了 健康 类 。 
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图 10-2 ”后 验 概率 p(cilx) 的 等 高 线 。 图 中 画 出 的 是 p(cilx) 的 后 验 概率 等 高 线 ， 其 中 cl 是 代 
表 第 9 章 讨论 的 血红 细胞 数据 的 健康 类 的 分 类 标签 。 粗 线 是 (p (cilx) = p (cx) = 
0.5) 的 决策 边界 ， 另 两 条 等 高 线 对 应 于 p (clx) = 0.01 和 p (cx) = 0.99。 图 中 还 
标 出 了 原始 的 数据 点 供 参考 ， 以 及 和 每 个 类 拟 合 的 协 方差 椭圆 〈 虚 线 所 示 ) 


图 10-3 显示 了 应 用 到 不 同 数据 集 的 同一 分 类 过 程 (多 元 正 态 ， 最 大 似 然 估 计 ) 
的 结果 ， 在 这 个 例子 中 ， 来 自 印第安 比 马 人 数据 集 ( 最初 在 第 3 章 中 讨论 的 ) 的 两 
个 变量 被 用 作 分 类 变量 ， 其 中 取 值 为 0 的 有 问题 的 测量 值 (被 认为 是 孤立 点 ， 参 见 
第 3 章 ) 被 预先 删除 了 。 与 图 10-2 中 的 血红 细胞 数据 不 同 ， 这 两 种 分 类 ( 健康 的 
和 患 糖尿 病 的 ) 在 这 两 维 中 是 严重 重 叙 的 。 被 估计 的 协 方差 矩阵 忆 PL, 未 加 约束 ， 
使 得 产生 的 决策 边界 和 后 验 概率 等 高 线 也 是 二 次 的 。 重 枉 的 程度 被 反映 在 后 验 概率 
的 等 高 线 上 ， 现 在 这 些 等 高 线 比 图 10-2 中 的 更 加 分 散 ( 它们 下 降 得 很 慢 )。 


可 以 看 到 ， 不 论 是 判别 法 还 是 回归 法 ， 它 们 的 焦点 都 在 于 各 类 之 间 的 差异 或 者 更 正式 
的 说 ， 它 们 的 焦点 都 集中 在 以 x 值 为 条 件 的 类 隶属 关系 概率 上 )， 然 而 分 类 条 件 法 《〈 或 者 说 


oR (diagnostic) 方法 ， 而 把 焦点 集中 在 x 值 分 布 的 方法 称 为 采样 (sampling) 方法。 当然， 
所 有 这 些 方法 都 是 相互 联系 的 。 分 类 条 件 〈 即 产生 法 ) 方法 与 回归 方法 的 相同 之 处 在 于 前 者 
最 终 产生 的 也 是 后 验 分 类 概率 , 不 同 之 处 在 于 前 者 以 一 种 非常 特别 的 方式 《借助 员 叶 斯 法 则 ) 
计算 这 些 概率 ， 而 回归 法 在 如 何 对 后 验 概率 建 模 方面 是 没有 限制 的 。 类 似 地， 不 论 是 回归 法 
还 是 分 类 条 件 或 产生 法 都 隐 含 地 包括 了 决策 边界 ， 也 就 是 说 ， 在 决策 模式 中 它们 都 把 输入 x 
映射 到 m 个 类 别 中 的 一 个 ， 并 且 这 都 是 在 概率 框架 下 完成 的 ， 但 是 “真正 的 ”判别 分 类 器 
并 不 一 定 要 这 样 做 。 
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图 10-3 ”后 验 概率 p(cilx) 的 等 高 线 。 其 中 ci 是 第 3 章 的 印第安 比 马 人 数据 的 糖尿 病 类 
的 标签 。 粗 线 是 (p (clx) =p (cxlx) = 0.3) 的 决策 边界 ， 另 两 条 等 高 线 对 应 
Fp (c) = 0.1 和 p (cx) = 0.9。 和 每 个 类 拟 合 的 协 方差 椭圆 是 用 虚线 画 出 的 


我 们 将 在 接 下 来 的 几 节 中 讨论 每 种 方法 的 实例 。 至 于 哪 种 类 型 的 分 类 器 在 实践 中 工作 得 
更 好 ， 这 要 看 问题 的 特征 。 对 于 某 些 应 用 比如 医疗 诊断 )， 产 生 后 验 分 类 概率 的 分 类 器 比 
仅仅 给 出 分 类 标签 的 分 类 器 更 有 价值 。 基 于 分 类 条 件 分 布 方法 的 优点 是 提供 了 对 每 个 类 别 的 
完整 描述 〈 例 如 ， 它 提供 了 一 种 检测 孤立 点 一 一 看 起 来 不 属于 任何 已 知 类 别 的 输入 x 一 一 的 
方式 )。 然 而 正如 第 9 章 中 所 讨论 的 ， 在 高 维 情况 下 要 精确 的 估计 函数 P(xlcu60) 是 非常 困难 
的 《即便 可 能 )。 在 这 种 情况 下 ， 判 别 式 方法 可 能 工作 得 更 好 。 通 常 ， 基 于 分 类 条 件 分 布 的 
方法 需要 拟 合 的 参数 最 多 《因此 会 产生 最 复杂 的 模型 )， 回 归 方 法 需要 拟 合 的 参数 少 一 些 
而 判别 式 模 型 在 这 三 种 方法 中 最 少 。 可 以 这 样 直 观 地 解释 这 一 点 ， 最 优 的 判别 式 模 型 仅 包含 
了 最 优 的 回归 模型 中 的 信息 的 一 个 子 集 (决策 边界 ， 而 不 是 完全 的 分 类 概率 曲面 )， 而 最 优 
的 回归 模型 所 包含 的 信息 又 比 最 优 的 分 类 条 件 分 布 模型 要 少 。 





10.3 感知 器 


感知 器 (perceptron〉 是 最 早 的 以 计算 机 为 基础 的 自动 分 类 规则 之 一 。 感 知 器 的 目标 直 
接 指向 学 习 决 策 边界 曲面 ， 从 这 个 意义 上 来 说 它 是 判别 式 规则 的 一 个 实例 。 感 知 器 模型 最 初 
是 受 简单 的 神经 网 络 模型 的 启发 而 产生 的 ， 是 用 来 模拟 人 类 大 脑 中 真实 神经 元 的 “积聚 
(accumulate) 一 一 引发 〈fire)” 这 一 阔 值 行为 ， 在 第 11 章 的 回归 模型 中 我 们 将 讨论 更 通用 
的 和 最 新 的 神经 网 络 模型 。 

形式 最 简单 的 感知 器 模型 (用 于 二 分 类 ) 就 是 关于 测量 x 的 线性 组 合 。 我 们 定义 h (x) = 
Iwa EP w (1 志 j<p〉 是 模型 的 权 〔 参 数 )。 人 们 通常 向 该 式 中 加 入 一 个 值 固 定 为 1 的 附 
加 输入 ， 目 的 是 向 模型 中 加 入 一 个 可 训练 的 偏 移 项 。 分 类 是 通过 把 h(x) 和 一 个 阐 值 进行 比较 


”译注 :体重 指数 (又 称 BMI 指数 )= 体 重 (KG)/ 身 高 (M)?。 
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MERG, ATHE, BUNCE SURO 0。 如 果 对 于 所 有 第 一 类 点 都 有 h(x) >0 并 且 
对 于 所 有 第 一 类 点 都 有 疡 (过 0， 我 们 便 可 以 完全 分 隔 这 两 个 类 。 我 们 可 以 通过 寻找 一 系列 
权 使 训练 集合 中 的 所 有 点 都 满足 上 面 的 条 件 来 实现 这 种 分 隔 。 这 意味 着 评分 函数 就 是 使 用 给 
定 的 一 组 权 wi,…,wpr 来 分 类 训练 数据 时 的 错误 分 类 数 。 我 们 把 第 二 类 数据 点 的 测量 值 x 转 
换 为 -x， 那 么 问题 会 变 的 更 加 简单 。 因 为 这 样 一 来 我 们 就 仅 需 要 一 组 权 ， 这 组 权 满 足 对 于 所 
有 的 训练 集合 中 的 点 都 有 及 (x)>0。 

可 以 通过 依次 分 析 训 练 数 据点 来 估计 权 w;。 我 们 从 一 个 初始 的 权 集 合 开始 ， 用 它 分 类 第 
一 个 数据 点 。 如 果 分 类 是 正确 的 ， 那 么 权 保持 不 变 。 如 果 分 类 是 不 正确 的 ， 那 么 一 定 是 h(x) 
<0， 于 是 对 权 进 行 更 新 使 h(x) 上升。 通过 向 权 中 加 一 个 误 分 类 向 量 可 以 很 容易 地 做 到 这 一 
点 ， 也 就 是 这 样 定义 权 更 新 法 则 : w = w + 和 Ax;。 这 里 入 是 一 个 小 的 常数 。 对 所 有 的 数据 点 重 
复 这 个 过 程 ， 如 果 需 要 还 可 以 重复 对 训练 数据 集 操作 几 次 。 可 以 证 明 ， 如 果 两 个 类 别 是 被 线 
性 决策 曲面 完全 分 割 的 ， 那 么 只 要 选取 的 入 值 足够 小 ， 这 个 算法 最 终 便 可 以 找到 分 隔 曲面 。 
这 种 更 新 算法 使 人 联想 起 第 8 章 中 讨论 的 梯度 下 降 技术 ， 不 过 这 种 方法 没有 实际 计算 梯度 ， 
而 是 逐步 降低 误差 率 评 分 函数 。 

当然 也 可 以 使 用 其 他 的 算法 ， 而 且 当 两 个 类 别 不 是 线性 可 分 时 ， 其 他 方法 确实 更 有 吸引 
力 。 在 这 种 情况 下 ， 要 分 析 错 误 分 类 误差 率 是 相当 困难 的 〈 因 为 它 不 是 关于 权 的 平滑 函数 )， 
因此 经 常 使 用 误差 平方 评分 函数 来 代替 : 











2 


n +1 
S(W= >, Sx) yO) (10.5) 
i=l | j=l 

因为 这 是 一 个 二 次 的 误差 函数 ， 所 以 关于 权 向 量 w 的 函数 具有 唯一 的 全 局 最 小 值 ， 而 
且 最 小 化 的 方法 也 是 相当 简单 的 (要 么 使 用 第 8 章 中 的 局 部 梯度 下 降 方 法 ， 要 么 使 用 线性 代 
数 直 接 求 闭合 形式 的 解 )。 

这 种 基本 的 感知 器 思想 有 很 多 变 体 ， 例 如 处 理 两 种 以 上 分 类 情况 的 扩展 。 感 知 器 模型 的 
吸引 力 在 于 它 易于 理解 和 分 析 。 然 而 ， 在 实践 中 它 的 适用 性 受到 决策 边界 是 线性 〈 也 就 是 输 
入 空间 X 中 的 超 平面 ) 的 这 一 事实 所 限制 ， 因 为 现实 的 分 类 问题 可 能 需要 更 复杂 的 次 策 曲 
面 以 实现 更 低 的 分 类 误差 率 。 


10.4 线性 判别 式 





可 以 把 线性 判别 式 分 类 方法 看 作 是 感知 器 模型 的 “ 挛 兄 弟 ”， 因 为 它们 都 属于 线性 分 类 

器 这 一 家 族 。 判 别 式 方法 基于 一 种 简单 但 很 有 用 的 概念 搜索 可 以 最 佳 分 隔 各 个 类 别 的 变量 

线性 组 合 。 可 以 把 线性 判别 式 看 作 是 判别 法 的 一 种 ， 因 为 它 既 不 显 式 地 估计 分 类 隶属 关系 的 

后 验 概率 ， 也 不 估计 分 类 的 条 件 分 布 。Fisher (1936) 是 最 早 讨论 线性 判别 式 分 析 的 著作 之 
一 (对 于 二 分 类 的 情况 )。 设 已 为 按 如 下 方式 定义 的 组 合 样 本 协 方差 矩阵 : 

C= (uC + nC,) (10.6) 





nl + Ny 
其 中 n (1<i<2) 是 每 个 类 的 数据 点 数 ，C <i<2) 是 每 个 类 的 pxp PAA Ch 
计 的 ) (和 第 2 章 中 的 定义 相同 )。 为 了 表征 任意 p HERE w HAREJ, RRIF EN 
了 一 个 标量 的 评分 函数 : 
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wâ -wh 
Ep ARA 分 别 是 第 1 类 和 第 2 类 数据 中 x 的 pxl 均值 向 量 。 分 子 项 是 每 个 类 的 均值 投影 
差异 ， 我 们 希望 这 一 项 最 大 化 。 分 母 是 数据 在 w 方向 投影 的 估计 方差 ， 并 考虑 了 不 同 变量 x 
可 能 既 有 各 自 的 不 同方 差 ， 又 有 相互 间 的 不 同 协 方差 。 

给 定 了 评分 函数 S (w)， 接 下 来 的 问题 就 是 确定 使 这 个 表达 式 最 大 化 的 方向 w。 实 际 上 ， 
存在 一 个 闭合 形式 的 解 ， 从 而 可 以 得 到 最 大 化 以 上 表达 式 的 w， 它 是 由 下 式 给 出 的 : 

Wig = C | (fy - Ay) (10.8) 

分 类 新 数据 点 的 方法 就 是 把 它 投影 到 最 大 化 分 隔 的 方向 ， 如 果 x 满足 下 式 便 把 它 分 类 到 

第 一 类 中 ， 


S(w)= (10.7) 











1. ~ 
Wha (x5 -ap > toa BS (10.9) 


pP(c2) 
其 中 p(cj) 和 p (cy 分别 是 两 种 类 别 的 概率 。 
图 10-4 中 显示 了 把 费 歇 尔 线性 判别 式 应 用 到 前 面 讨论 的 有 关 贫 血 的 二 分 类 问题 的 结果 。 
可 以 看 出 这 种 线性 决策 边界 对 训练 数据 的 分 隔 效 果 不 如 图 10-2 中 的 二 次 边界 好 。 


4.5 


费 歼 尔 判 别 式 
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+ 
ww 







平均 血红 蛋白 浓度 
> á 
> bd N 


w 
Kol 
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平均 血红 细胞 量 


图 10-4” 费 敬 尔 线性 判别 式 产生 的 决策 边界 。 这 里 的 数据 就 是 第 9 章 中 讨论 贫血 问题 
的 血红 细胞 数据 ， 其 中 叉 号 表示 健康 的 一 类 ， 圆 轿 表 示 铁 缺乏 贫血 的 一 类 


一 种 特例 是 每 种 类 别 内 部 的 数据 都 符合 具有 共同 的 协 方差 矩阵 的 多 元 正 态 分 布 ， 这 时 得 
到 了 和 公式 10.2 相同 的 最 优 分 类 规则 〈 并 且 实 际 上 只 要 两 种 类 别 都 具有 相同 一 次 形式 的 椭 
圆 分 布 ， 那 么 分 类 规则 就 是 最 优 的 )。 不 过 应 该 注意 ， 既 然 wu 是 在 没有 假定 正 态 的 情况 下 
求 出 的 ， 所 以 即使 在 不 服从 正 态 分 布 的 情况 下 线性 判别 式 方法 也 经 常 可 以 提供 有 价值 的 分 类 
器 。 还 应 该 注意 ， 如 果 我 们 从 潜在 分 布 的 假定 形式 角度 来 分 析 线 性 判别 式 方法 ， 那 么 与 其 把 
它 看 作 判 别 法 ， 还 不 如 把 它 看 作 基 于 分 类 条 件 分 布 的 方法 。 
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AFR TIREI FERR REAR EER. TE FA] KBE (canonical 
discriminant functions) 产生 m-1 个 不 同 决 策 边界 (假定 m-1<p) 来 处 理 类 别 数 m>2 的 情 
况 。 当 放宽 了 协 方差 托 阵 相等 的 条 件 时 ， 二 次 判别 式 函 数 (quadratic discriminant functions) 
在 输入 空间 中 产生 二 次 的 决策 边界 ， 就 像 例 10.2 中 所 讨论 的 那样 。 正 规 化 判别 式 分 析 

(regularized discriminant analysis) 则 将 二 次 方法 的 形式 更 加 简化 。 

线性 判别 式 模型 的 计算 复杂 度 是 Omp). 1X BRAVE n> > {p,m}, PRUE SEIT 
是 估计 分 类 的 协 方差 矩阵 人 ，1 和 ij 委 m。 至 多 对 数据 库 进 行 两 次 线性 扫描 便 可 以 发 现 所 有 这 
HAERE (一 次 是 取得 均值 ， 一 次 是 产生 O (p) 个 协 方差 矩阵 项 )。 因 此 ， 这 个 模型 对 观察 值 数 
量 的 变化 有 很 好 的 伸缩 性 ， 但 是 对 于 变量 数目 的 增 大 特别 敏感 ， 因 为 它 对 变量 数 p 的 依赖 性 

(需要 估计 的 参数 数量 ) 是 二 次 的 。 








10.5” 树 模型 


树 模型 的 基本 原理 是 以 一 种 递归 的 方式 来 划分 输入 变量 所 跨越 的 空间 ， 目 的 是 最 大 化 关 
于 类 纯度 的 评分 函数 ， 也 就 是 使 (大 致 如 此 ， 依 赖 于 所 选取 的 特定 评分 方法 ) 划分 出 的 每 个 
单元 (cell) 的 大 多 数 点 都 属于 同一 类 。 例 如 ， 对 于 三 个 输入 变量 x y 和 z 的 情况 ， 可 以 切 
Bl x， 把 输入 空间 分 裂 成 两 个 单元 。 然 后 再 把 这 两 个 单元 中 的 每 一 个 一 分 为 二 ， 或 许 是 青 次 
按 x 的 某 个 阔 值 ,也 可 以 按 y 或 z 的 某 个 阔 值 。 一 直 重复 这 个 过 程 直到 没有 必要 继续 下 去 〈 参 
见 下 文 ;， 并 用 每 个 分 支点 定义 树 的 节点 。 如 果 要 预测 一 个 已 知 输入 变量 值 的 新 案例 的 分 类 
值 ， 那 么 便 沿 着 树 模型 向 下 追 滴 ， 在 每 个 节点 把 新 案例 和 该 节点 变量 的 闹 值 进行 比较 ， 然 后 
选取 合适 的 分 支 。 

树 模型 在 很 久 以 前 便 出 现 了 ， 但 建立 树 的 正式 方法 出 现 的 时 间 并 不 长 。 在 这 种 方法 出 现 之 前 ， 
人 们 基于 以 前 对 数据 的 内 在 产生 过 程 和 现象 的 理解 来 构建 树 。 树 有 很 多 有 吸引 力 的 特征 。 它 易于 
理解 和 解释 ， 它 可 以 轻松 的 处 理 混合 类 型 的 变量 〈 比 如 连续 的 和 离散 的 )， 因 为 树 使 用 二 元 测试 来 
划分 空间 〈 对 于 实数 值 变量 使 用 阔 值 ， 对 于 分 类 型 变量 可 使 用 子 集成 员 测试 )， 它 可 以 非常 迅速 地 
预测 新 案例 ， 它 还 非常 灵活 ， 因 此 可 以 用 来 建立 强大 的 预测 工具 。 然 而 ， 它 所 固有 的 顺序 性 〈 构 
建树 的 方式 决定 了 这 一 点 ) 有 时 可 能 导致 所 得 化 分 对 输入 变量 空间 来 讲 不 是 最 优 的 。 

建立 树 的 基本 策略 极其 简单 就 是 递归 地 分 裂 输入 变量 空间 的 各 个 单元 。 分 裂 给 定单 元 
(或 者 说 ， 如 何 选取 用 来 分 裂 节 点 的 变量 和 阐 值 的 方法 是 搜索 每 个 变量 的 每 个 可 能 阐 什 ， 
目的 是 找到 可 以 最 大 改善 制定 评分 函数 的 阐 值 分 裂 。 分 数 是 以 训练 数据 集合 中 的 数据 为 基础 
进行 评估 的 。 如 果 目 标 是 要 预测 一 个 对 象 属于 两 种 类 别 中 的 哪 种， 那么 就 选取 对 局 部 分 数 
产生 最 大 平均 改进 (对 两 个 子女 结 点 求 平均 ) 的 变量 和 阔 值 。 节 点 的 分 裂 不 会 导致 评分 函数 
对 训练 数据 的 恶化 。 已 经 证 明 ， 对 于 分 类 的 情况 ， 直 接 使 用 分 类 误差 并 不 是 选取 分 裂变 量 的 
有 效 评分 函数 。 人 们 发 现 像 精 这 样 不 太 直 接 的 其 他 尺度 效果 更 好 。 注 意 ， 对 于 有 序 变量 ， 一 元 
分 裂 对 应 于 关于 变量 值 的 单一 阔 值 ， 对 于 标 称 型 变量 ， 分 裂 对 应 于 把 变量 值 划 分 成 两 个 子 集 。 

例 10.3 用 于 特定 实数 值 阅 值 测试 TT (了 代表 了 对 一 个 变量 的 阅 值 测试 X> T) 
的 炉 标 准 被 定义 为 执行 这 个 测试 后 的 平均 业 : 
H (CIT) = p(T =0) H (CIT =0) +p(T=1D)H(CIT=)1) (10.10) 
HP, RAM (CIT= 1) 被 定义 为 : 








w 


w 
上 
上 


Ww 


-dpc IT =I logy plc, IT =1) 


PERAK AAR (Tol 或 T=0) ORME EAAD A FEARR 
的 平均 。 因 为 我 们 的 目标 就 是 把 数据 分 裂 成 各 个 子 集 从 而 使 尽 可 能 多 的 数据 点 属于 
一 个 类 或 者 另 一 个 类 ， 这 完全 等 价 于 使 每 一 分 支 的 炳 最 小 化 。 在 实践 中 ， 我 们 对 所 
有 的 变量 进行 搜索 ,目的 是 找到 一 个 测试 T， 使 经 过 这 个 二 元 分 裂 后 的 平均 炉 最 小 。 


原则 上 ， 这 个 分 裂 过 程 该 一 直 继 续 到 每 个 叶子 节点 仅 包含 唯一 的 训练 数据 点 一 一 或 者 当 多 
个 训练 数据 点 具有 相同 的 输入 变量 向 量 时 (如 果 输 入 变量 是 范畴 性 的 ， 那 么 这 有 可 能 发 生 )， 这 
个 过 程 该 继续 到 每 个 叶子 节点 仅 包含 具有 相同 输入 变量 值 的 训练 数据 点 。 然 而 ， 这 样 做 可 能 导 
致 严重 的 过 度 拟 合 。 通 常 不 必 分 裂 到 这 种 极端 的 情况 (也 就 是 说 ， 构 建 更 小 单位 的 ， 更 简约 的 
BD 就 可 以 得 到 更 好 的 树 〈 从 对 来 自 同一 分 布 的 新 数据 产生 更 好 的 预测 这 个 意义 上 来 说 )。 

早期 的 研究 通过 在 达到 这 种 极端 情况 之 前 停止 分 裂 来 实现 这 个 目的 〈 这 类 似 于 我 们 下 一 
章 中 将 要 讨论 的 ， 通 过 终止 收敛 过 程 来 避免 神经 网 络 中 的 过 度 拟 合 )。 然 而 ， 这 种 方法 因 受 分 
裂 过 程 的 序列 性 影响 而 存在 天 生 不 足 。 有 可 能 出 现 因为 下 一 步 可 以 取得 的 改善 非常 微小 便 停 
止 了 增长 的 树 ， 只 要 再 向 下 一 步 就 可 以 产生 非常 显著 的 改善 。 这 个 效果 “很 差 ”的 步骤 可 能 
是 得 到 再 下 一 步 显 著 改 善 的 必要 基础 。 当 然 关 于 这 个 问题 不 存在 特别 有 效 的 专门 办 法 。 这 是 
顺序 性 方法 的 通病 ， 这 也 完全 适用 于 下 一 章 将 讨论 的 分 步 回归 搜索 算法 一 一 它 也 是 为 什么 更 
周密 的 算法 不 仅 包含 向 前 进入 而 且 包含 反 向 回 淹 的 原因 。 类 似 的 算法 已 经 渗透 到 了 树 方法 中 。 

目前 ， 一 种 普遍 的 策略 是 先 建立 起 一 棵 庞大 的 树 一 一 持续 分 裂 直到 每 个 叶子 结 点 都 满足 
了 某 个 终止 条 件 〈 例 如 一 个 节点 的 所 有 数据 点 都 属于 同一 类 或 者 都 具有 相同 的 x 向 量 ) 一 一 
然后 再 对 这 棵 树 进行 剪 枝 。 也 就 是 ， 每 一 步 融合 两 个 叶子 节点 ， 选 择 融 合 对 象 的 标准 是 使 树 
对 训练 集合 的 预测 性 能 降低 最 小 。 可 供 选 择 的 方法 还 有 ， 使 用 像 最 短 描述 长 度 这 样 的 尺度 或 
者 交叉 验证 (例如 第 5 章 中 描述 的 CART 算法 ) 来 防止 过 度 拟 合 训练 数据 。 

还 有 两 种 广泛 使 用 的 避免 过 度 拟 合 训练 数据 问题 的 策略 。 第 一 种 是 对 叶子 作出 的 预测 和 
遂 向 叶子 的 节点 的 预测 进行 平均 ， 第 二 种 方法 是 根据 对 几 棵 树 的 平均 来 做 预测 ， 建 立 每 一 标 
树 时 都 以 某 种 方式 对 数据 进行 轻微 的 打 乱 〈perturbing)。 最 近 第 二 种 方法 吸引 了 更 多 的 注意 。 
事实 上 ， 这 种 模型 平均 方法 (model averaging methods) 对 于 所 有 预测 建 模 都 是 通用 的 。 模 
型 平均 方法 对 于 树 模型 特别 有 效 ， 这 是 因为 从 以 下 角度 来 看 树 模型 具有 相当 高 的 变化 性 : 树 
对 训练 数据 中 的 微小 变化 特别 敏感 ， 因 为 数据 中 的 微小 波动 可 能 导致 选取 不 同 的 根 结 点 并 产 
生 一 个 完全 不 同 的 树 结构 。 取 基于 多 种 扰动 数据 集 的 树 的 平均 〈 也 就 是 根据 来 自 训练 数据 的 
多 个 自 展 (bootstrap) 样本 建立 多 棵 树 ， 然 后 再 对 它们 的 预测 取 平 均 ) 大 多 时 候 可 以 通过 降 
低 方差 来 抵消 这 种 影响 。 

通常 把 给 定 叶 子 节点 上 的 训练 数据 点 的 最 普遍 分 类 值 ( 大 多 数 分 类 〉 作 为 对 到 达 这 个 叶 
子 的 任意 数据 点 的 预测 分 类 。 这 相当 于 把 通 向 这 个 叶子 节点 的 分 支 所 定义 的 输入 空间 区 域 的 
最 可 能 分 类 标签 赋 给 了 这 个 区 域 。 有 时 ， 在 给 定 叶子 节点 的 训练 数据 总 体 分 类 概率 分 布 中 包 
含 了 有 价值 的 信息 。 注 意 对 于 任何 一 个 特定 的 类 别 ， 树 模型 所 产生 的 概率 实际 上 相当 于 输入 
空间 中 的 一 个 国定 分 段 ， 所 以 输入 变量 值 的 一 个 很 小 的 变化 都 可 能 导致 以 完全 不 同 的 分 类 概 
率 ， 从 而 把 数据 点 发 送 到 一 个 不 同 的 分 支 (进入 不 同 的 叶子 或 者 说 区 域 )。 

前 枝 之 前 为 了 建立 树 而 寻找 最 佳 的 分 裂 时 ， 算 法 搜索 所 有 的 变量 和 这 些 变量 的 所 有 可 能 
分 型 。 对 于 实数 值 的 变量 ， 分 裂 的 可 能 位 置 数 通常 被 取 为 x-1( 也 就 是 比 每 个 节点 的 数据 点 
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数 nA 1)， 每 个 分 列 的 位 置 取 在 两 个 数据 点 的 中 间 ( 取 中 间 位 置 未 必 是 最 优 的， 但 具有 简 
单 的 优点 )。 如 果 直接 寻找 p 个 实数 信 变 量 中 的 最 佳 分 列 , 那 么 计算 的 复杂 度 通常 在 Olpn’ logn’) 
这 个 规模 。m log wr 项 是 用 来 对 节点 的 变量 值 进行 排序 以 便 计算 评分 芳 数 ， 对 于 任意 的 阐 值 
我 们 需要 知道 多 少 个 点 在 这 个 病 值 之 上 ， 多 少 个 点 在 它 之 下 。 对 于 很 多 评分 函数 我 们 可 以 证 
明 有 序 变量 的 最 优 闵 值 一 定位 于 属于 不 同类 的 两 个 变量 什 之 间 。 可 以 利用 这 个 事实 来 提高 搜 
索 的 速度 ， 尤 其 是 当 数 据点 数量 很 大 的 时 候 。 此 外 ， 可 以 利用 各 种 记录 方法 来 避免 从 一 个 节 
点 到 另 一 个 节点 时 的 重新 排序 。 对 于 范畴 型 的 变量 ， 必 须 进行 某 种 形式 的 组 合 搜索 来 发 现 定 
义 分 裂 的 最 佳 变量 值 子 集 。 

从 数据 库 的 观点 来 看 ， 树 增长 是 一 种 开销 很 大 的 过 程 。 如 果 节点 上 的 数据 点 数 超过 了 主 
存储 器 的 存储 能 力 ， 那 么 函数 就 必须 操作 主 存储 器 中 的 数据 缓存 和 放 在 副 存储 器 中 的 其 余数 
据 。“ 硅 力 ”实现 方法 为 树 上 的 每 个 节点 线性 扫描 数据 库 ， 从 而 使 算法 非常 慢 。 因 此 ， 当 要 
对 超过 了 主 存储 器 存储 能 力 的 数据 应 用 树 算法 时 ， 要 么 使 用 聪明 的 算法 〈 具 有 专门 的 数据 管 
理 策略 ， 可 以 使 对 副 存储 器 的 访问 最 小 化 );， 要么 对 数据 随机 采样 ， 以 在 一 个 主 存储 器 可 以 
容纳 的 样本 上 工作 。 

基本 树 模型 的 一 个 不 足 在 于 它 是 单 描述 的 《monothetic)， 每 个 节点 仅 根据 一 个 变量 做 出 
分 裂 。 在 有 些 现实 的 问题 中 ， 分 类 变量 随 输 入 变量 组 合 的 不 同 变化 很 快 。 例 如 ， 在 一 个 包含 
两 个 变量 的 分 类 问题 中 ， 可 能 的 情况 是 ， 一 种 分 类 对 应 于 两 个 输入 变量 的 值 都 很 低 的 数据 ; 
而 另 一 种 分 类 对 应 于 两 个 变量 的 值 都 很 高 的 数据 。 这 个 问题 的 决策 曲面 是 输入 变量 空间 的 对 
角 线 。 标 准 的 方法 使 用 多 个 分 裂 来 实现 这 个 曲面 ， 结 果 得 到 一 个 对 对 角 线 决策 曲面 的 楼 梯 状 
近似 。 图 10-5 简单 地 说 明了 这 种 情况 。 当 然 ， 最 佳 的 方法 是 为 输入 变量 的 线性 组 合 定义 一 
个 阅 值 一 一 对 树 方法 的 一 些 扩展 就 是 这 样 做 的 ， 这 些 方法 允许 在 要 被 分 裂 的 可 能 变量 集 
合 中 包含 原始 输入 变量 的 线性 组 合 。 当 然 ， 这 加 大 了 建立 树 所 需 搜索 过 程 的 复杂 度 。 
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图 10-5 决策 树 模型 对 血红 细胞 数据 产生 的 决策 边界 。 这 星 使 用 的 是 第 9 章 中 的 数据 。 决 策 边 界 
是 由 多 个 和 坐标 轴 平 行 的 线性 分 段 组 成 的 〈 相 对 而 言 ， 图 10-4 中 的 决策 边界 更 加 简单 ) 
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10.6 ”最 近邻 方法 


最 近邻 方法 的 基本 形式 是 非常 易于 理解 的 :要 分 类 一 个 输入 向 量 为 y 的 新 对 象 ， 就 在 训 
练 数 据 集合 中 找 出 与 y 最 靠近 的 上 个 点 ， 然 后 把 这 个 点 中 的 大 多 数 点 的 分 类 赋 给 这 个 新 对 
象 。 这 里 的 “靠近 ”标准 是 定义 在 p 维 输入 空间 中 的 。 因 此 我 们 就 是 根据 输入 变量 寻找 和 新 
对 象 最 靠近 的 训练 数据 ， 然 后 把 新 对 象 归 类 到 这 些 最 相近 对 象 中 最 有 代表 性 的 类 中 。 

从 理论 上 讲 ， 我 们 是 取 变 量 空间 中 以 x 为 中 心 到 第 k 近 的 近邻 的 距离 为 半径 的 一 个 小 胞 
体 (volume )。 然 后 ， 用 这 个 小 胞 体 中 训练 数据 点 属于 每 个 类 的 比例 作为 这 个 胞 体 中 的 点 属 
于 每 一 类 的 概率 的 极 大 似 然 估计 量 。k 近邻 方法 把 新 的 点 分 配 到 具有 最 大 估计 概率 的 类 中 。 
最 近邻 方法 实质 上 属于 我 们 所 说 的 “回归 ” 法 -一 它 直 接 估计 类 隶属 关系 的 后 验 概 率 。 

当然 ， 前 面 的 简单 勾勒 遗漏 了 很 多 问题 。 首 先是 我 们 必须 选取 天 的 值 和 一 种 定义 靠近 的 
尺度 。 最 基本 的 形式 是 取 k=1， 但 这 样 得 到 的 分 类 器 相当 不 稳定 (变化 性 太 大 ， 对 数据 过 于 
敏感 )， 因 此 很 多 时 候 可 以 通过 提高 有 值 (降低 了 方差 ， 但 由 于 取 平 均 的 范围 扩大 了 ， 所 以 
可 能 增 大 偏差 ) 来 使 预测 更 加 一 致 。 然 而 ， 增 大 上 意味 着 包含 进来 的 训练 数据 点 未 必 是 和 要 
分 类 的 对 象 非 接近 的 。 也 就 是 “小 的 胞 体 ” 可 能 根本 不 小 。 因为 是 对 属于 这 个 胞 体内 每 一 类 
的 概率 做 出 平均 估计 ， 所 以 这 可 能 完全 偏离 这 个 胞 体内 任意 点 的 值 一 一 而 且 这 种 偏离 很 可 能 
随 着 胞 体 的 增 大 而 增 大 。 当 然 这 里 面 维 数 p 起 了 重要 的 影响 .对 于 数量 点 数 n 固定 的 数据 集 
合 来 说 增加 p (加 入 变量 ) 会 使 数据 变 得 越 来 越 稀 朴 。 这 会 导致 预测 出 的 概率 和 这 一 点 在 问 
题 中 的 真实 概率 相 偏离 。 

我 们 又 回 到 了 偏差 (bias) /方差 (variance) 平衡 这 一 无 所 不 在 的 问题 ， 因为 增 大 大 会 
降低 方差 但 会 增 大 偏差 。 有 关于 选取 的 理论 指导 ， 但 是 因 其 不 仅 依赖 于 一 些 普 遍 因素 ， 还 
依赖 于 数据 集 的 特定 结构 ， 所 以 选取 上 的 最 佳 策略 应 该 是 一 种 对 数据 具有 适应 性 (data- 
adaptive) 的 策略 : 试验 不 同 的 值 ， 画 出 性 能 判 据 (比如 误 分 类 率 ) 对 的 曲线 ， 然 后 选择 
一 个 最 佳 的 k 值 。 在 基于 这 种 策略 的 方法 中 ， 必须 使 用 独立 与 训练 数据 的 数据 集 来 进行 这 种 
评估 《不然 的 话 会 导致 常见 的 过 度 拟 合 问题 )。 然而 对 于 较 小 的 数据 集 ， 为 了 分 离 出 测试 集 
合 而 减 小 训练 集合 是 不 明智 的 ， 因 为 最 佳 的 大 值 无 疑 依赖 于 训练 数据 集中 的 数据 点 数 。 一 种 
有 效 的 策略 (尤其 是 对 于 小 数据 集 ) 是 采用 “ 留 出 一 个 ”(leaving-one-out) 交叉 验证 评分 函 
数 


























许多 最 近邻 方法 都 采用 欧 氏 距离 尺度 ， 如 果 y 是 要 分 类 点 的 输入 向 量 ，x 是 训练 集合 中 
的 点 的 输入 向 量 ， 那 么 它们 间 的 欧 氏 距离 为 Z xy)?» EW 2 章 中 所 讨论 的 ， 这 里 存在 的 
一 个 问题 是 没有 对 不 同 输入 变量 的 相对 重要 性 提供 一 种 明确 的 衡量 方法 。 我 们 可 以 通过 加 权 
来 解决 这 个 问题 ， 即 使 用 Z wary HP w ER. 这 看 起 来 比 欧 氏 距离 更 复杂 一 些 ， 但 是 
不 需要 选取 权 的 欧 氏 尺度 是 不 可 靠 的 。 只 要 在 计算 欧 氏 距离 前 改变 一 个 变量 的 测量 单位 就 可 
以 看 出 这 一 点 。 (这 种 情况 的 一 个 例外 是 所 有 的 变量 都 是 以 相同 的 单位 测量 的 一 一 比如 ， 在 
多 种 不 同 的 场合 测量 同一 个 变量 的 情况 一 一 也 就 是 所 谓 的 重复 测量 (repeated measures) 数 
据 。) 

对 于 一 分 类 的 情况 ， 最 佳 尺 度 是 以 属于 类 别 ci 的 概率 也 就 是 P(cilx)) 等 高 线 来 定义 
的 。 与 y 在 同一 等 高 线 上 的 训练 数据 点 和 在 y 点 的 数据 点 属于 ci 类 的 概率 相同 ， 因 此 把 它们 
包含 进 k 个 最 近邻 没有 引入 任何 偏差 。 与 此 相反 ， 和 y 靠近 但 不 在 Pcilx) 等 高 线 上 的 点 属于 
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cl 类 的 概率 是 不 同 的 ， 因 此 把 它们 包含 进 丰 个 近邻 中 往往 会 引入 人 和 偏差。 当然， 我 们 不 知道 等 
高 线 的 位 置 。 要 是 知道 了 ， 我 们 就 根本 不 需要 进行 这 个 过 程 了 。 这 意味 着 在 实践 中 我 们 是 估 
计 出 近似 的 等 高 线 并 把 尺度 建立 在 它们 之 上 。 不 论 是 全 局 的 方法 〈 例 如 用 多 元 正 态 分 布 来 佑 
计 各 个 类 别 ) 还 是 局 部 方法 〈 例 如 迭代 应 用 最 近邻 方法 ) 都 已 经 被 用 来 发 现 近似 的 等 高 线 。 

最 近邻 方法 与 第 6 章 中 讨论 的 用 于 密度 估计 的 核 方 法 的 关系 非常 密切 。 基 本 的 核 方 法 定 
义 一 个 确定 带宽 的 单元 〈cel)， 然 后 计算 这 个 单元 中 的 点 属于 每 个 类 的 比例 。 这 意味 着 这 个 
比例 的 分 母 是 一 个 随机 变量 。 基 本 的 最 近邻 方法 把 这 个 比例 k 固定 ， 让 带宽 成 为 随机 
变量 。 在 实践 中 ， 基 于 这 两 种 方法 扩展 出 的 方法 〈 例 如 平滑 衰减 核 函 数 ， 给 最 近邻 点 根据 它 
们 与 x 的 距离 赋予 不 同 的 权 ， 或 者 选取 根据 x 变化 的 带宽 ) 几乎 是 无 法 分 辨 的 。 

最 近邻 方法 有 几 种 有 吸引 力 的 特征 。 它 易于 编程 并 且 不 需要 优化 和 训练 ， 对 于 某 些 问题 
它 的 分 类 精度 很 高 ， 可 以 和 像 神经 网 络 这 样 的 更 专业 方法 相 比 ， 它 允许 方便 地 应 用 否决 选项 

(reject option) 《如 果 我 们 对 预测 出 的 分 类 没有 足够 的 信心 那么 可 以 推迟 这 个 决策 ); 可 以 直 
接 扩展 到 多 分 类 的 情况 (尽管 这 时 如 何 选择 最 佳 尺度 不 太 明 确 )， 本 身 就 可 以 处 理 被 分 类 对 
象 向 量 中 的 残缺 值 ， 只 要 工作 在 那些 提供 了 值 的 变量 子 空间 中 就 可 以 了 。 

从 理论 角度 讲 ， 最 近邻 方法 是 一 种 很 有 价值 的 工具 : 随 着 设计 样本 容量 的 增 大 ， 估 计 出 
的 概率 的 偏差 会 降低 (对 于 固定 的 ky)。 如 果 我 们 可 以 把 k 增 大 到 一 个 适合 的 程度 《使 估计 的 
方差 也 下 降 )， 那 么 最 近邻 规则 的 误 分 类 率 将 收敛 到 一 个 和 贝 叶 斯 误差 率 相关 的 等 值 。 例 如 ， 
当 数 据点 数 n 趋向 于 w 时 ， 最 近邻 方法 的 误 分 类 率 的 上 限 为 贝 叶 斯 误差 率 的 一 倍 。 

对 于 所 有 的 方法 ， 过 高 的 维 数 都 会 产生 问题 。 从 本 质 上 讲 ， 要 克服 这 一 问题 就 必须 不 使 
用 那些 太 灵 活 以 至 于 过 度 拟 合 数据 的 分 类 规则 ， 因 为 变量 数 太 多 增 大 了 过 度 拟 合 的 可 能 | 
在 这 种 情况 下 ， 简 单 形式 的 参数 模型 〈 比 如 线性 模型 ) 经 常 表现 得 很 好 。 而 最 近邻 方法 大 多 
时 候 表现 得 不 这 么 好 。 当 变量 数目 非常 大 时 〈 并 且 对 应 的 训练 数据 数量 并 没有 那么 大 时 )， 
最 近邻 的 大 个 点 经 常 是 实际 上 距离 非常 远 。 这 意味 着 要 引入 非常 粗略 的 平滑 处 理 ， 而 这 种 平 
滑 处 理 和 分 类 的 目标 是 不 相关 的 ， 就 导致 对 于 变量 数 很 多 的 问题 最 近邻 方法 的 性 能 非常 差 。 

此 外 ,理论 的 分 析 还 提出 了 最 近邻 方法 在 高 维 情况 下 可 能 存在 问题 。 在 某 种 分 布 条 件 下 ， 
任 一 特定 点 x 距 其 最 近 点 的 距离 与 距 其 最 远 点 的 距离 的 比例 随 着 维 数 的 增长 接近 1， 于 是 最 
近邻 的 概念 变 得 没什么 意义 了 。 然 而 ， 得 到 这 个 结果 所 需 的 分 布 假定 是 相当 强 的 ， 在 其 他 更 
现实 的 假定 下 ， 最 近邻 概念 是 完全 经 得 起 推 项 的 。 

最 近邻 方法 的 另 一 个 可 能 不 足 是 它 并 不 建立 模型 ， 而 是 依赖 于 把 所 有 训练 数据 集合 中 的 
点 都 保留 下 来 《由 于 这 个 原因 ， 有 时 把 这 种 方法 称 为 “消极 ”方法 )。 如 果 训 练 数据 集 很 虎 
大 ， 那 么 要 搜索 到 k 个 最 近邻 点 是 很 费时 间 的 一 个 过 程 。 特 别 是 当 使 用 蛮 力 方式 搜索 时 ， 要 
访问 n 个 训练 数据 点 中 的 每 一 个 ， 并 进行 p 次 操作 来 计算 到 每 个 点 的 距离 ， 因 此 每 次 查询 所 
需 的 时 间 复 杂 度 是 0 (np)。 因 此 对 于 n 值 很 大 的 应 用 和 /或 者 要 求实 时 的 分 类 来 说 (例如 使 用 
最 近邻 算法 从 数 百 万 条 记录 的 客户 数据 库 中 搜索 出 与 网 站 的 当前 访问 者 相似 的 客户 ， 然 后 向 
访问 者 实时 的 推荐 产品 )， 直 接应 用 最 近邻 方法 在 空间 和 时 间 方 血 都 是 不 可 行 的 。 

人 们 已 经 开发 出 了 很 多 基本 方法 的 变 体 来 加 速 搜索 并 降低 内 存 需求 。 例 如 ， 可 以 应 用 分 
枝 定 界 法 : 如 果 已 经 知道 在 距离 要 分 类 的 点 距离 为 d 的 范围 内 至 少 有 上 个 点 ， 那 么 如 果 一 个 
点 位 于 已 知 与 要 分 类 点 距离 超过 2d 的 点 的 d 半径 范围 内 ， 那么 就 没 必 要 再 考虑 这 个 点 了 。 
这 需要 对 训练 数据 集 进行 预 处 理 ， 还 有 一 些 抛弃 某 些 训练 数据 点 的 预 处 理 方法 。 例 如 ， 压缩 

(condensed) KARA ERME (reduced) 最 近邻 方法 选择 性 地 抛弃 一 些 设计 集合 数据 点 ， 











选择 的 标准 是 使 那些 剩 下 的 数据 点 仍然 可 以 正确 分 类 所 有 其 他 训练 数据 点 。 改 进 〈edited ) 
最 近邻 方法 抛弃 那些 位 于 另 一 个 类 的 稠密 区 域 中 的 这 个 类 的 孤立 点 ， 以 这 种 方式 来 平滑 决策 
曲面 。 这 些 方法 在 速度 和 内 存 方面 的 改善 通常 依赖 于 很 多 因素 : 包括 n 和 p 的 值 ， 当 前 数据 
集 的 具体 特征 ， 使 用 的 具体 技术 ; 和 时 间 与 内 存 二 者 间 的 折 囊 等 。 

还 有 一 种 提高 最 近邻 方法 对 大 数据 集 和 高 维 情况 的 伸缩 性 的 方法 ， 它 使 用 聚 类 来 对 数据 
分 组 ， 然 后 根据 数据 点 在 聚 类 中 的 隶属 关系 把 它们 存储 到 磁盘 上 。 当 要 寻找 和 输入 点 y 最 近 
的 点 时 ， 先 找到 最 靠近 y 的 聚 类 ， 然 后 在 这 些 聚 类 的 范围 内 进行 搜索 。 在 相当 宽松 的 假定 下 
这 种 方法 都 能 以 很 高 的 概率 找到 真正 的 最 近邻 。 


10.7 logistic 判别 式 分 析 
对 于 二 分 类 的 情况 ， 从 回归 角度 出 发 的 应 用 最 广 的 基本 分 类 方法 之 一 就 是 logistic 判别 


式 分 析 (logistic discriminant analysis )。 给 定 一 个 数据 点 x， 它 属于 cl 类 的 估计 概率 是 : 
1 


plc |x) = 一 一 一 一 一 (10.11) 
1+ exp(B'x) 
既然 属于 两 种 分 类 的 概率 的 和 为 1， 那 么 只 要 做 减法 就 可 以 得 到 属于 第 二 类 的 概率 : 
__exp(B'x) 

Ptc =T OB) (10.12) 

对 上 面 的 关系 进行 变换 ， 容 易 看 出 对 数 赔 率 (odds ratio) 是 x 的 线性 函数 。 也 就 是 : 
og P21 _ pix (10.13) 

p(c, |x) 


这 种 对 后 验 概率 建 模 的 方法 具有 很 多 有 吸引 力 的 特征 。 例 如 ， 如 果 分 布 是 具有 相等 协 方 
差 矩阵 的 多 元 正 态 分 布 ， 那 么 它 就 是 最 优 的 解 。 此 外 ， 对 于 x 为 离散 变量 的 情况 ， 如 果 可 以 
用 具有 同一 个 交叉 项 的 对 数 线性 模型 〈 在 第 9 章 中 曾经 提 到 ) 来 对 分 布 建 模 ， 那 么 它 也 是 最 
优 的 。 还 可 以 把 这 两 个 最 优 的 特征 组 合 在 一 起 ， 那 么 就 得 到 了 一 个 可 用 于 混合 变量 〈 也 就 是 
既 有 离散 变量 和 又 有 连续 变量 ) 的 有 吸引 力 的 模型 。 

费 区 尔 线性 判别 式 分 析 方 法 对 于 具有 相等 协 方差 矩阵 的 边缘 正 态 分 类 情况 也 是 最 优 的 。 
如 果 已 经 知道 数据 是 从 这 样 的 分 布 采样 的 ， 那 么 费 软 尔 的 方法 更 高 效 。 这 是 因为 它 通过 对 协 
方差 矩阵 建 模 显 式 的 使 用 这 种 信息 ， 而 logistic 方法 避 开 这 一 点 。 男 一 方面 ，logistic 方法 具 
有 更 一 般 的 适用 性 〈 实 践 中 根本 不 存在 严格 的 多 元 正 态 分 布 )， 这 使 其 如 今 比 线性 判别 式 分 
析 方 法 更 受 青睐 。 这 里 使 用 如 今 (nowadays) 一 词 是 因为 这 种 算法 需要 计算 两 个 模型 的 参数 。 
线性 判别 式 分 析 模 型 的 数学 简洁 性 意味 着 它 可 以 找到 显 式 的 解 。 而 logistic 判别 式 分 析 并 非 
如 此 ， 它 必须 采用 和 迭代 的 估计 过 程 。 这 种 算法 的 最 常见 形式 就 是 极 大 似 然 方法 ， 使 用 似 然 作 
为 评分 函数 。 我 们 将 在 第 11 章 中 描述 这 种 方法 ， 那 时 我 们 将 在 推广 的 线性 模型 这 一 更 广泛 ， 
的 框架 下 来 进行 讨论 。 


10.8 朴素 贝 叶 斯 模型 


理论 上 讲 ， 建 立 在 分 类 条 件 分 布 《 所 有 变量 都 是 范畴 性 变量 ) 基础 上 的 方法 是 很 直接 明 
了 的 : 我 们 只 要 先 估计 出 来 自 每 个 类 的 对 象 落 入 离散 变量 每 个 单元 〈 变 量 向 量 X 的 每 种 可 
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能 离散 值 ) 中 的 概率 ， 然 后 使 用 贝 叶 斯 定理 来 产生 分 类 。 然 而 在 实践 中 ， 这 经 常 是 难以 实现 
的 ， 因 为 对 于 p 个 值 变量 ， 必 须 估 计 的 概率 数量 是 O(@)。 例 如 ， 如 果 在 一 个 应 用 中 变量 
数 p=30， 并 且 每 个 变量 都 是 二 值 的 (k=2)， 那 么 我 们 就 必须 估计 出 22=10? 个 概率 。 假 定 〈 根 
据 经 验 ) 我们 应 该 为 模型 中 每 个 要 估计 的 参数 至 少 准备 10 个 数据 点 (这 里 模型 参数 就 是 指 
用 来 说 明 联合 分 布 的 概率 )， 那 么 我 们 将 需要 10" 数量 级 的 数据 点 来 准确 地 估计 所 需 的 联合 
分 布 。 对 于 mm 之 2) 种 分 类 的 情况 ， 需 要 的 数据 点 数 是 这 个 数字 的 m 倍 。 显 然 对 于 p 较 
大 的 情况 ， 这 种 方法 是 不 可 行 的 。 

我 们 曾 在 第 6 章 和 第 9 章 中 指出 ， 总 是 可 以 通过 适当 的 独立 假定 来 简化 联合 分 布 ， 本 质 
F 这 相当 于 用 小 得 多 的 表 的 乘积 来 近似 e 个 概率 的 完整 表格 。 对 于 极端 的 情况 ， 我 们 可 以 
假定 所 有 的 变量 对 于 给 定 的 分 类 是 条 件 独立 的 ， 也 就 是 说 : 





. P 
pK Icy) = plays Xp Len) = | | pj ben)» 1Sk<m (10.14) 
j= 

有 时 这 被 称 为 朴素 贝 叶 斯 或 一 阶 贝 叶 斯 假定 。 这 种 近似 允许 我 们 用 一 元 分 布 的 乘积 来 近 
似 需要 O(g 个 概率 的 完整 条 件 分 布 ， 近 似 后 每 个 类 所 需 的 概率 总 数 是 O(kp)。 因 此 条 件 独立 
模型 对 变量 数 p 是 线性 的 而 不 是 指数 的 。 如 果 使 用 这 个 模型 进行 分 类 ， 那 么 我 们 只 要 使 用 这 
种 乘积 形式 的 分 类 条 件 分 布 ， 它 便 是 朴素 贝 叶 斯 分 类 器 。 

上 面 使 用 朴素 贝 叶 斯 模型 大 大 减少 了 参数 量 ， 但 这 是 有 代价 的 : 我 们 做 出 了 一 种 非常 强 
的 独立 性 假定 。 在 一 些 问题 中 ， 条 件 独立 的 假定 可 能 是 非常 合理 的 。 例 如 ， 如 果 x RR HE 
R a 是 不 同 的 疾病 ， 那 么 对 于 一 个 患 有 疾病 ci 的 病人 ， 假 定 具 有 任何 一 种 症状 的 概率 仅 依 
赖 于 疾病 cs， 而 不 依赖 于 出 现 的 其 他 任何 症状 ， 那 么 这 种 假定 可 能 或许) 是 合理 的 。 换 句 
话 来 说 ， 我 们 是 在 各 种 症状 对 于 给 定 的 每 种 疾病 没有 相互 作用 的 条 件 下 “注意 这 不 同 于 假定 
各 种 症状 边缘 (无条件) 独立) 对 症状 是 如 何 出 现 的 进行 建 模 。 在 很 多 现实 情况 中 ， 这 种 条 
件 独立 假定 是 很 不 现实 的 。 例 如 ， 设 x, 和 x 分 别 是 一 群 人 的 年 收入 和 存款 总 额 ，ci 代表 他 
们 的 信誉 度 ， 信 誉 度 被 分 为 两 种 ， 好 和 坏 。 即 使 在 同一 类 范围 内 我 们 也 可 以 看 到 x, 和 x 的 
依赖 性 ， 因 为 收入 越 多 的 人 可 能 存款 也 越 多 。 如 果 假 定 两 个 变量 是 独立 的 ， 那 么 这 相当 于 把 
它们 当 作 两 种 独立 的 信息 ， 这 显然 是 与 问题 中 的 实际 情况 不 符 的 。 

尽管 独立 假定 模型 对 所 涉及 的 概率 可 能 不 是 非常 切合 实际 的 ， 但 是 它 仍 有 可 能 作出 相当 
精确 的 分 类 。 这 有 很 多 原因 ， 包 括 : 要 估计 的 参数 相对 较 少 ， 这 使 估计 的 变化 性 很 小 ， 尽 管 
产生 的 概率 估计 是 有 偏 的 , 但 是 因为 我 们 感 兴趣 的 并 不 是 它 的 绝对 值 ,而 仅 是 它 的 排列 次 序 ， 
所 以 这 可 能 并 不 要 紧 ， 很 多 时 候 已 经 对 变量 进行 了 筛选 ， 在 筛选 中 抛弃 了 那些 高 度 相关 变量 
对 中 的 多 余 变 量 ;朴素 贝 叶 斯 分 类 器 的 决策 曲面 可 能 与 最 优 分 类 器 的 决策 曲面 一 致 。 

除了 因为 朴素 贝 叶 斯 分 类 器 的 性 能 经 常 好 的 惊人 之 外 ， 它 流行 的 另 一 个 原因 就 是 这 种 分 
类 器 的 形式 特别 简单 。 利 用 贝 叶 斯 定理 和 条 件 独立 ， 可 以 得 出 一 个 测量 向 量 为 x 的 点 属于 第 
个 类 的 概率 估计 是 : 


P(cy Ix) ~ p(xI cg) plcr) 


p 
= pep | [PG to) 1<k<m (10.15) 
j=l 
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下 面 假定 只 有 两 种 类 别 c 和 cx， 然 后 计算 对 数 赔 率 。 经 过 一 些 简 单 变换 便 得 到 ; 





log plc, |x) _ 





p(c1) plxj1c1) 
1 log 一 一 一 (10. 
Bega) ee ples) > pcx, Ten) 10.16) 
因此 ， 一 个 实例 属于 ci 类 的 对 数 赔 率 可 以 通过 把 先 验 的 贡献 和 每 个 变量 分 别 的 贡献 简 


单 相 加 来 给 出 。 这 种 相 加 的 形式 对 于 解 冬 特 别 有 价值 ， 因 为 可 以 把 每 一 项 Jog E 看 作 
PLX C2 





更 可 能 属于 ci 还 是 cz 的 正 向 或 负 向 贡献 

可 以 很 容易 的 从 许多 不 同 的 角度 来 推广 朴素 贝 叶 斯 模型 。 如 果 测 量 值 是 实数 的 ， 那 么 我 
们 仍然 可 以 作出 条 件 独 立 的 假定 ， 然 后 计算 一 元 密度 估计 《而 不 是 分 布 ) 的 乘积 。 对 于 任何 
实数 值 x， 我 们 可 以 使 用 我 们 喜欢 的 密度 估计 技术 来 估计 ftxjlcD， 例 如 像 正 态 密度 这 样 的 参 
数 模型 ， 或 者 像 核 密度 函数 这 样 的 非 参 数 模型 。 对 于 实数 变量 和 离散 变量 组 合 的 情况 ， 只 要 
在 公式 10.15 中 使 用 密度 和 分 布 的 乘积 就 可 以 了 。 

尽管 上 面 的 公式 形式 很 简单 ， 但 是 它 所 对 应 的 决策 曲面 可 能 非常 复杂 ， 而 且 不 一 定局 限 
于 线性 范围 〈 例 如 ， 多 元 正 态 的 朴素 贝 叶 斯 模型 通常 产生 二 次 的 决策 边界 )， 这 与 对 原始 变 
量 的 简单 加 权 求 和 《比如 感知 器 和 费 歇 尔 线性 判别 式 ) 所 产生 的 线性 曲面 形成 了 对 比 。 朴 素 
幢 叶 斯 模型 的 这 种 简洁 性 、 俭 省 性 〈parsimony) 和 可 解释 性 使 它 的 应 用 非常 广泛 ， 特 别 是 
在 机 器 学 习 中 。 

我 们 可 以 通过 包含 超出 一 阶 范围 的 一 些 (但 非 全 部 ) 依赖 性 来 推广 朴素 贝 叶 斯 模型 。 可 
以 把 这 种 推广 想像 为 对 更 高 阶 的 依赖 性 进行 搜索 ， 然 后 选择 出 一 些 “ 重 要 的 ”依赖 性 加 入 模 
型 《比如 pGwxilc)， 以 及 三 元 组 等 等 )。 通 过 这 样 ， 我 们 实际 上 是 在 建立 一 种 通用 的 图 模型 
(或 者 说 是 信念 网 络 一 一 参见 第 6 章 )。 然 而 ， 实 践 表 明 对 于 很 多 数据 集 ， 这 种 改进 的 模型 
对 分 类 性 能 的 改善 经 常 是 很 有 限 的 ， 这 再 次 证 明了 建立 精确 的 密度 估计 量 和 建立 好 的 分 类 器 
是 不 同 的 。 

最 后 我 们 讨论 一 下 朴素 贝 叶 斯 模型 的 计算 复杂 度 。 因 为 我 们 〈 本 质 上 ) 仅 使 用 了 建立 在 
一 元 密度 的 简单 函数 基础 之 上 的 加 法 模型 ， 所 以 这 种 模型 的 计算 复杂 度 大 体 是 估计 每 个 单独 
一 元 分 类 依赖 密度 和 分 布 的 复杂 度 的 pm 倍 。 对 于 离散 值 的 变量 ， 充 分 统计 量 就 是 在 每 个 柱 
位 (bin) 中 的 点 数 ， 所 以 只 要 扫描 数据 一 次 就 可 以 建立 起 贝 叶 斯 分 类 器 了 。 对 于 实数 值 变 
量 的 一 元 密度 参数 模型 来 说 扫描 一 次 也 是 足够 的 (我 们 仅 需 要 搜集 充分 统计 量 ， 比 如 正 态 分 
布 的 均值 和 方差 )。 对 于 更 加 复杂 的 密度 模型 ， 比 如 混合 模型 ， 由 于 匹配 这 些 密度 函数 的 迁 
代 性 〈 如 第 9 章 中 所 讨论 的 )， 我 们 则 可 能 需要 多 次 扫描 数据 才能 建立 模型 。 








10.9 其 他 方法 


近年 来 开发 出 了 大 量 的 预测 分 类 方法 。 在 现代 计算 设备 所 提供 的 惊人 性 能 的 推动 下 ， 其 
中 很 多 方法 已 经 非常 强大 和 灵活 。 前 面 我 们 已 经 介绍 了 这 些 方法 中 的 一 部 分 ， 说 明了 它们 是 
如 何 相互 联系 的 。 其 他 的 方法 还 有 很 多 ， 但 是 在 一 本 书 的 一 章 中 讨论 所 有 这 些 方法 是 不 现实 
的 ， 而 且 ， 还 不 断 有 新 的 方法 被 发 明和 开发 出 来 。 令 人 激动 的 研究 在 我 们 写作 本 书 的 同时 仍 
在 继续 ， 没 能 在 本 章 中 提 到 的 方法 还 有 ， 

o 混合 模型 和 径 向 基 函 数 (radial basis function) 方法 使 用 简单 分 布 〈 例 如 多 元 正 态 分 
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布 ) 的 混合 来 近似 每 个 分 类 条 件 分 布 。 即 使 仅 使 用 几 个 分 量 分 布 来 模拟 分 类 条 件 分 
布 也 可 以 产生 令 人 吃惊 的 效果 。 

@ 前 馈 神 经 网 络 〈 在 第 5 章 的 反 向 传播 方法 中 曾经 讨论 过 ， 在 下 一 章 的 回归 方法 中 也 
会 提 到 ) 是 对 感知 器 的 推广 。 有 时 被 称 为 多 层 感知 器 (multilayer perceptrons)。 第 一 
EFE h 个 线性 项 ， 每 一 项 是 p 个 输入 的 加 权 组 合 〈 在 效果 上 相当 于 hi 个 感知 器 )。 
然后 对 这 h, 个 项 进行 非 线性 变换 〈logistic 函数 是 一 种 流行 的 供 选 变换 方案 )， 然 后 
在 多 个 层 中 重复 这 个 过 程 。 变 换 的 非 线 性 使 决策 曲面 的 形状 具有 高 度 的 灵活 性 ， 因 
此 这 种 模型 对 于 某 些 分 类 问题 特别 有 效 。 然 而 ， 这 种 根本 上 的 非 线性 意味 着 估计 过 
程 不 是 显而易见 的 ， 必 须 使 用 迭代 技术 《比如 秦山 方法 )。 估 计 过 程 的 计算 复杂 度 导 
致 这 种 方法 尤其 不 适用 于 庞大 的 数据 集 。 

© 投影 追踪 (projection pursuit) 方法 可 以 被 看 作 神 经 网 络 方法 的 “姊妹 篇 ”( 在 第 11 
章 中 讨论 回归 时 我 们 将 再 回 到 这 个 话题 )。 可 以 数学 证 明 它 们 具有 同等 的 功能 ， 但 是 
它 的 优势 是 估计 更 加 简洁 。 它 也 是 先 对 原始 变量 进行 线性 组 合 ， 然 后 作 非 线性 变换 ， 
进而 再 对 变换 的 结果 进行 线性 组 合 。 不 过 ， 在 神经 网 络 中 变换 是 固定 的 ， 而 在 投影 
追踪 中 变换 是 数据 驱动 的 。 

© 就 像 神经 网 络 是 从 对 感知 器 的 早期 研究 中 衍生 的 一 样 ， 文 持 向 量 机 也 是 如 此 。 早 期 
的 感知 器 研究 假定 各 个 类 别 是 完全 可 分 的 ， 然 后 寻找 一 个 适当 的 分 裂 超 平面 。 最 佳 
的 泛 化 性 能 是 当 超 平面 距离 所 有 数据 点 都 尽 可 能 远 时 得 到 的 。 支 持 向 量 机 通过 延伸 
测量 空间 把 这 种 思想 推广 到 更 复杂 的 曲面 ， 以 便 包 括 原 始 变量 的 变换 《组合 )。 在 这 
种 增强 的 空间 中 完全 分 裂 数据 的 线性 决策 曲面 等 价 于 在 本 来 的 原始 测量 空间 中 完全 
分 裂 数 据 的 非 线 性 决策 曲面 。 这 种 方法 的 独 有 特征 是 使 用 了 一 种 被 称 为 “边际 
(margin)” 的 特殊 评分 函数 ， 这 个 评分 函数 试图 使 两 个 类 间 的 线性 决策 边界 位 置 最 
优 ， 最 优 的 标准 就 是 最 佳 的 可 能 泛 化 性 能 。 使 用 这 种 方法 的 实践 经 验 是 可 以 很 快 提 
高 的 , 但 是 估计 过 程 可 能 很 慢 , 因为 它 要 求解 存储 复杂 度 为 O(n”)、 时间 复 杂 度 为 O0P) 
的 复杂 优化 问题 。 

很 多 分 类 应 用 经 常 是 匹配 一 个 非常 灵活 的 模型 ， 然 后 再 以 某 种 方式 对 其 进行 平滑 处 理 
以 防止 过 度 拟 合 〈 或 者 同时 进行 这 两 个 过 程 )， 以 求 做 到 对 偏差 和 方差 的 适当 折 囊 。 这 表 
现在 对 树 的 剪 枝 ， 拟 合 神经 网 络 的 权 衰 减 技 术 ， 判 别 式 分 析 中 的 正规 化 处 理 ; 支持 向 量 机 
中 的 “平滑 ”等 等 。 一 种 很 不 一 样 的 策略 是 先 估计 出 几 个 《或 者 很 多 ) 模型 ， 然 后 对 它们 
的 预测 进行 平均 ， 这 和 对 多 个 树 分 类 器 取 平 均一 样 ， 已 经 证 实 这 种 策略 对 于 预测 建 模特 别 
有 效 。 显 然 这 种 方法 和 第 4 章 中 的 贝 叶 斯 模型 平均 方法 在 概念 上 是 相似 的 ， 后 者 明确 地 把 
模型 的 参数 ARMAS) 当 作 不 确定 性 ， 然 后 在 做 预测 时 对 这 种 不 确定 性 进行 平均 。 模 
型 平均 起 源 于 统计 ， 而 从 多 个 分 类 器 的 预测 中 选取 多 数 结果 的 类 似 方法 起 源 于 机 器 学 习 。 
不 过 还 可 以 用 其 他 方式 来 组 合 分 类 器 ， 例 如 我 们 可 以 把 分 类 器 的 输出 当 作 更 高 层 分 类 器 的 
输入 。 原 则 上 讲 ， 可 以 在 每 一 阶段 使 用 任何 类 型 的 预测 分 类 模型 。 当 然 参数 估计 通常 都 不 
是 简单 的 事 。 

模型 平均 策略 面临 的 一 个 明显 问题 是 ， 如 何 加 权 对 平均 的 不 同 贡 献 一 一 也 就 是 应 该 给 每 
个 分 类 器 多 大 的 权 ? 最 简单 的 策略 是 使 用 相等 的 权 ， 但 是 很 显然 允许 使 用 不 同 的 权 可 能 更 有 
优势 〈 至 少 来 说 相等 的 权 是 不 等 的 权 这 种 更 一 般 模 型 的 特例 )。 人 们 已 经 提出 了 寻找 权 的 各 
种 策略 ， 包 括 让 权 依 赖 于 每 个 模型 个 体 的 预测 精度 和 依赖 于 模型 的 相对 复杂 度 。boosting 方 








法 也 可 以 被 看 作 是 一 种 模型 平均 方法 。 它 建立 一 系列 连续 的 模型 ， 并 在 数据 集合 上 训练 每 个 
模型 ， 在 这 一 过 程 中 ， 被 前 一 个 模型 分 错 类 的 数据 点 被 给 予 更 大 的 权 。 这 与 在 早期 感知 器 算 
法 中 使 用 的 误差 纠正 策略 具有 明显 的 相似 性 。 最 近 的 研究 已 经 提供 了 实验 和 理论 证 据 表 明 
boosting 方法 是 建立 平滑 预测 模型 的 一 种 非常 有 效 的 数据 驱动 策略 。 


10.10 分 类 器 的 评估 和 比较 


本 章 讨论 了 预测 分 类 模型 一 一 使 用 对 象 的 一 系列 测量 来 对 一 个 新 对 象 可 能 隶属 的 类 别 做 
出 预测 的 模型 。 有 很 多 不 同 的 模型 可 以 实现 这 一 目的 ， 所 以 一 个 很 自然 的 问题 就 是 “对 于 一 
个 给 定 的 问题 到 底 应 该 使 用 哪 种 方法 ? ”。 不 幸 的 是 对 于 这 个 问题 根本 没有 通用 的 答案 ， 方 
法 的 选择 必须 依赖 于 问题 、 数 据 和 目标 的 特征 。 当 然 了 解 这 些 方法 的 特征 会 有 助 于 对 它们 做 
出 选择 ， 但 是 理论 上 的 属性 不 总 能 有 效 的 指导 实践 〈 贝 叶 斯 模型 中 的 独立 假定 的 有 效 性 说 明 
了 这 一 点 )。 当 然 ， 预 期 的 和 观察 到 的 性 能 的 差异 起 到 了 刺激 进一步 理论 研究 的 作用 ， 使 理 
论 不 断 深入 。 

如 果 目 前 的 理论 理解 无 法 对 实践 结果 做 出 解释 ， 那 么 很 多 时 候 必 须 通 过 对 性 能 的 实验 
性 比较 来 指导 我 们 选择 不 同 的 方法 。 评 估 分 类 规则 的 研究 成 果 非 常 多 。 其 中 大 多 都 是 以 其 
他 领域 的 建 模 为 背景 提供 了 一 种 初步 的 实验 方法 。 这 一 节 简 要 地 介绍 如 何 评估 分 类 模型 的 
性 能 。 

到 目前 为 止 我 们 使 用 的 评估 标准 都 是 分 类 模型 的 误差 率 或 者 叫 误 分 类 率 一 也 就 是 这 
个 规则 可 能 错误 分 类 将 来 对 和 外 的 比例 。 我 们 把 贝 叶 斯 误差 率 定义 为 最 优 的 误差 率 一 一 假设 
我 们 的 模型 是 建立 在 数据 的 潜在 真实 分 布 函数 基础 上 时 可 以 达到 的 误差 率 。 当 然 在 实践 中 
必须 事先 选择 这 样 的 函数 形式 〔〈 或 者 使 用 替代 的 判别 法 或 回归 法 ， 然 后 估计 它们 的 参数 )， 
所 以 模型 很 可 能 偏离 这 个 最 优 的 情况 。 这 样 模型 便 具有 一 个 真实 的 或 者 说 实际 的 误差 率 〈 它 
不 会 小 于 贝 叶 斯 误差 率 )。 真 正 的 误差 率 有 时 被 称 为 条 件 误差 率 ， 因 为 它 是 以 给 定 的 训练 数 
据 集 为 条 件 的 。 

我 们 需要 有 一 种 方式 来 估计 这 种 真实 误差 率 。 一 种 显而易见 的 方法 是 重新 分 类 训练 数 
据 ， 然 后 计算 被 错误 分 类 的 比例 。 这 就 是 表 观 (apparent) 误差 率 ， 或 者 叫 重 新 代入 
(resubstitution) 误差 率 。 不 幸 的 是 ， 这 很 可 能 低估 了 将 来 的 错误 分 类 率 。 这 是 因为 预测 模 
型 就 是 在 这 个 训练 数据 集 上 建立 的 ， 所 以 对 于 这 些 数据 它 表 现 的 可 能 更 好 。( 退 一 步 来 说 ， 
故意 的 选取 在 训练 数据 上 也 表现 很 差 的 模型 是 不 正常 的 !) 既然 数据 不 过 是 从 问题 中 的 分 布 
抽取 出 的 样本 ， 所 以 它 不 可 能 完全 反映 这 个 分 布 。 这 意味 着 我 们 的 模型 可 能 仅 有 反映 了 针对 训 
练 数据 的 这 部 分 特征 。 因 此 如 果 重 新 分 类 训练 数据 ， 那 么 正确 分 类 率 会 比分 类 将 来 数据 的 情 
况 好 。 

我 们 已 经 在 很 多 话题 中 讨论 了 这 种 现象 ， 人 们 也 已 经 提出 了 很 多 克服 这 一 问题 的 方法 。 
一 种 显而易见 的 做 法 是 在 一 个 新 的 样本 中 计算 错误 分 类 率 ， 以 估计 将 来 的 误差 率 ， 这 个 新 的 
样本 被 称 为 检验 集合 Cest set)。 这 种 方法 非常 好 一 一 但 它 忽视 了 一 个 事实 ， 要 是 有 检验 集 
合 可 以 使 用 的 话 ， 那 么 我 们 用 它 来 组 成 一 个 更 大 的 训练 集合 可 能 收获 更 大 。 因 为 这 样 可 以 建 
立 一 个 更 加 精确 的 模型 。 在 构建 模型 时 故意 地 忽略 一 部 分 数据 似乎 是 不 经 济 的 ， 当 然 除非 n 
非常 大 ， 并 且 我 们 有 把 握 认为 举例 来 说 ) 在 一 下 万 个 数据 点 上 《保留 另外 一 百 万 用 作 测试 
集合 ) 训练 和 在 完整 的 二 百 个 数据 点 上 训练 效果 大 体 是 一 样 的 。 
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当 数 据 集 合 的 容量 为 中 等 大 小 时 ， 人 们 提出 了 很 多 不 同 的 交叉 验证 方法 〈 参 见 第 7 章 和 
其 他 有 关 部 分 )， 也 就 是 在 组 建 规则 时 留 出 一 小 部 分 数据 《比如 说 十 分 之 一 )， 然 后 在 留 出 的 
这 部 分 数据 上 对 规则 进行 测试 。 并 且 可 以 留 出 数据 的 不 同 部 分 来 重复 这 个 过 程 。 基 于 这 一 原 
理 的 重要 方法 有 : 
@ @— (leaving-one-out) 法 ， 在 每 一 阶段 仅 留 出 一 个 数据 点 ， 但 是 每 个 数据 点 是 依次 
被 留 出 的 ， 所 以 最 终 测 试 集合 的 大 小 等 于 整个 训练 集合 的 大 小 ， 但 是 在 这 个 过 程 中 
每 个 唯一 一 点 的 测试 集合 是 独立 于 它 所 测试 的 模型 的 。 其 他 的 方法 是 用 较 大 比例 的 
数据 作为 测试 集合 (例如 整个 数据 集 的 十 分 之 一 )， 但 是 由 于 对 将 来 模型 的 性 能 估计 
是 基于 整个 数据 集 的 ， 所 以 这 些 方法 比 “ 留 一 ”法 具有 更 大 的 偏差 。 

@ ġ (bootstrap) 法 ， 这 种 方法 有 很 多 变 体 。 该 方法 用 样本 和 从 样本 中 轮番 抽出 的 
同样 容量 的 子 样本 间 的 关系 来 对 未 知 的 真实 分 布 和 样本 的 关系 建 模 。 在 一 种 方法 
中 ， 使 用 这 种 关系 来 纠正 重新 代入 所 引起 的 偏差 。 已 经 开发 出 了 一 些 非常 周密 的 自 
展 方法 的 变 体 ， 它 们 是 目前 为 止 的 最 有 效 方法 。Jackknife 方法 也 是 以 每 次 留 出 训 
练 集合 中 的 一 部 分 数据 〈 就 像 交叉 验证 中 那样 ) 为 基础 的 ， 但 是 它 等 价 于 自 展 方法 
的 一 种 近似 。 

还 有 很 多 其 他 的 误差 率 估计 方法 。 这 个 领域 一 直 是 很 多 论文 所 探讨 的 一 个 课题 一 一 参见 
补充 读物 ， 那 里 对 此 做 了 详细 介绍 。 

误差 率 同等 对 待 错误 分 类 每 一 对 象 的 严重 性 ， 然 而 ， 这 经 常 是 不 切实 际 的 。 很 多 时 候 ， 
某 种 误 分 类 比 其 他 更 加 严重 。 例 如 ， 当 某 个 人 患 了 某 种 小 毛病 时 ， 把 它 错误 诊断 为 一 种 可 以 
医治 的 疾病 显然 没有 把 他 诊断 为 不 治之 症 严 重 。 在 这 种 情况 下 ， 我 们 希望 可 以 为 不 同 的 分 类 
附加 代价 (costs)。 这 样 建 模 的 标准 就 不 再 是 简单 的 误差 率 ， 而 是 使 总 体 代 价 最 小 。 

这 些 思想 很 快 被 推广 到 多 分 类 的 情况 。 很 多 时 候 画 混 满 〈confusion) 矩阵 〈 行 和 列 分 别 
预测 分 类 和 真实 分 类 ) 是 很 有 价值 的 。 可 以 把 这 个 矩阵 的 每 个 单元 和 做 出 相应 误 分 类 〈 或 者 
正确 分 类 一 一 对 于 垂 阵 对 角 线 的 情况 ) 的 代价 联系 起 来 ， 这 样 便 可 以 估计 出 总 的 代价 。 

不 幸 的 是 ， 很 多 时 候 代价 是 难以 确定 的 。 这 时 ， 另 一 种 可 以 使 用 的 策略 是 对 一 种 代价 
相对 另 一 种 〈 对 于 二 分 类 的 情况 ， 也 可 以 推广 到 两 种 以 上 分 类 的 情况 ) 代价 的 所 有 可 能 比 
值 进行 积分 。 这 种 便 产 生 了 所 谓 的 性 能 吉 尼 系数 (Gini coefficient)。 这 个 尺度 与 用 来 比较 
两 个 独立 样本 的 Mann-Whitney-Wilcoxon 统计 验证 中 的 验证 统计 量 是 等 价 的， 也 等 价 于 接 
受 者 操作 特性 (Receiver Operating Characteristic) 曲线 或 者 ROC HA (AA 1 中 的 对 象 被 
正确 分 类 到 类 别 1 的 估计 比例 相对 类 别 2 的 对 象 被 错误 分 类 到 类 别 1 的 估计 比例 的 曲线 ) 
下 的 面积 。ROC 曲线 和 该 曲线 下 的 面积 广泛 应 用 于 很 多 研究 领域 。 不 过 ， 它 们 也 存在 解释 
上 的 问题 。 

分 类 模型 的 性 能 仅仅 是 选择 方法 时 要 分 析 的 一 个 方面 ， 另 外 一 个 要 素 是 方法 适合 数据 的 
程度 。 例 如 ， 一 些 方法 更 加 适合 于 离散 型 变量 ， 一 些 方法 更 适 于 连续 型 变量 ， 而 还 有 一 些 方 
法 以 同等 的 性 能 工作 在 这 两 种 类 型 的 数据 上 。 当 然 数 据 残缺 对 于 任何 方法 来 说 都 是 一 个 潜在 
的 (事实 上 是 普遍 存在 的 ) 问题 ， 某 些 方法 可 能 比 其 他 方法 能 更 容易 地 处 理 不 完整 数据 。 例 
如 ， 独 立 假定 下 的 贝 叶 斯 方法 处 理 这 样 的 数据 非常 简单 ， 而 费 歌 尔 判 别 式 分 析 方 法 就 不 是 这 
样 。 数 据 残 缺 的 原因 很 多 ， 并 且 这 些 原因 可 能 影响 建立 在 不 完整 数据 上 的 模型 的 有 效 性 ， 这 
时 事情 就 变 得 更 加 复杂 。 补 充 读 物 中 列 出 了 讨论 这 一 问题 的 参考 资料 。 

总 而 言 之 ， 分 类 模型 的 评估 是 一 个 重要 的 领域 ， 而 且 已 经 成 为 一 个 备 受 关注 的 课题 。 
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10.11 ”高 维 分 类 的 特征 选取 


数据 挖掘 者 在 实践 中 经 常 面 对 的 一 个 问题 是 变量 数 太 多 。 简 而 言 之 ， 并 不 是 测量 出 的 所 
有 变量 都 是 实际 判别 所 必需 的 ， 而 且 要 是 把 它们 包含 到 分 类 模型 中 会 使 模型 〈 比 删除 它们 ) 
更 差 。 考 虑 一 个 简单 的 例子 ， 假 定 要 建立 一 个 系统 来 判别 男性 和 女性 面容 图 像 〈 这 个 任务 对 
于 人 类 来 讲 不 费 吹 灰 之 力 ， 但 是 对 于 图 像 分 类 算法 来 说 却 是 非常 富有 挑战 性 的 )。 在 这 个 问 
题 中 ， 人 的 眼睛 、 头 发 或 者 皮肤 的 颜色 对 于 判别 几乎 没有 什么 价值 。 这 些 变量 易于 测量 〈 而 
且 确 实 是 人 外 貌 的 一 般 特征 )， 但 是 携带 的 识别 分 类 的 信息 却 很 少 。 

在 大 多 数 数据 挖掘 问题 中 ， 哪 些 变 量 是 《或 者 不 是 ) 有 关 的 并 不 像 上 面 的 例子 那样 明显 。 
例如 ， 把 一 个 人 的 人 口 统计 特征 和 在 线 购 买 行为 联系 起 来 就 不 是 十 分 明显 ， 而 且 这 也 未 必 符 
合 传统 的 模式 〈 试 想 一 个 受过 博士 教育 的 高 收入 群体 会 花 很 多 钱 来 买 连环 漫画 书籍 吗 ? 一 一 
如 果 存 在 这 样 的 群体 ， 那 么 连环 漫画 零售 商会 很 想 知道 !) 在 数据 挖掘 中 ， 我 们 特别 希望 让 
数据 来 说 话 ， 也 就 是 使 用 适应 数据 的 方法 来 选取 变量 〈 由 于 通常 没有 预先 的 知识 告诉 我 们 哪 
个 变量 对 任务 是 明显 无 关 的， 所 以 无 论 如 何 我 们 还 该 使 用 这 个 信息 )。 

在 第 6 章 中 讨论 一 般 的 建 模 问题 是 我 们 已 经 提 到 了 这 一 问题 ， 在 那里 我 们 列 出 了 一 些 通 
用 的 策略 ， 这 里 再 简要 的 回顾 一 下 : 

o 变量 筛选 ， 该 方法 的 思想 是 从 原始 的 p 个 变量 中 筛选 出 一 个 包含 p' 个 变量 的 子 集 。 

当然 我 们 事先 并 不 知道 p' 的 值 应 该 为 多 少 以 及 到 底 应 该 包含 哪些 变量 ， 所 以 可 以 考 
虑 的 变量 子 集 的 搜索 空间 是 组 合 性 的 ， 非 常 庞大 。 因 此 大 多 数 方法 都 依赖 于 对 变量 
子 集 空 间 的 启发 式 搜索 ， 很 多 时 候 是 使 用 贪 禁 的 搜索 方法 来 每 次 加 入 或 删除 一 个 变 
量 。 这 里 存在 两 种 一 般 性 的 方法 ， 第 一 种 是 使 用 自动 进行 变量 筛选 的 分 类 算法 ， 这 
些 算法 把 变量 筛选 作为 基本 模型 定义 的 一 部 分 ， 分 类 树 模型 就 是 这 种 模型 的 最 著名 
代表 。 第 二 种 方法 是 把 分 类 器 看 作 一 个 “ 黑 盒 ” 在 外 层 设计 一 个 循环 〈 或 者 叫 “ 包 
E” (wrapper)) 有 条 理 地 向 变量 子 集中 增加 或 从 中 减少 变量 ， 并 基于 分 类 模型 的 性 
能 评估 每 个 子 集 的 效果 。 

o 变量 转化 : 该 方法 的 思想 是 通过 一 个 预 处 理 步骤 对 原始 测量 进行 某 种 线性 的 或 非 线 
性 的 函数 变换 ， 这 样 通常 便 可 以 得 到 一 个 小 得 多 的 导出 变量 子 集 ， 然 后 基于 这 个 转 
化 后 的 变量 集合 建立 分 类 器 。 这 种 方法 的 例子 包括 主 分 量 分 析 〈 在 这 种 方法 中 我 们 
尽 可 能 找到 在 输入 空间 中 变化 最 大 的 方向 ， 这 本 质 上 是 一 种 数据 压缩 技术 一 一 参见 
第 3 章 和 第 6 章 )， 投 影 追踪 〈 在 这 种 方法 中 ， 算 法 对 有 趣 的 线性 投影 进行 搜索 一 一 
参见 第 6 章 和 第 11 章 )， 以 及 像 因素 分 析 和 独立 分 量 分 析 这 样 的 有 关 技术 。 虽 然 这 
些 技术 本 身 可 能 是 非常 强大 的 ， 但 是 它们 未 必 和 提 高 分 类 性 能 的 总 体 目标 很 好 吻合 ， 
这 是 一 个 不 足 。 这 方面 的 一 个 例子 是 主 分 量 分 析 ， 图 10-6 显示 的 例子 说 明了 这 一 点 。 
图 中 第 一 主 分 量 的 方向 (数据 要 投影 的 方向 ， 并 且 这 个 方向 可 能 被 用 作 分 类 器 的 输 
入 ) 与 问题 中 的 最 佳 线性 判别 投影 方向 是 完全 垂直 的 一 一 也 就 是 说 ， 对 于 这 个 分 类 
任务 这 个 方向 是 完全 错误 的 。 这 并 不 是 主 分 量 方法 本 身 有 问题 ， 而 是 因为 在 分 类 任 
务 中 应 用 了 不 合适 的 技术 。 当 然 这 个 例子 多 少 有 些 人 为 性 和 不 合理 性 ; 在 实践 中 ， 
主 分 量 投影 对 于 分 类 经 常 是 非常 有 价值 的 。 尽 管 如 此 ， 时 刻 牢 记 问 题 的 目标 还 是 很 
重要 的 。 
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变量 XI 


图 10-6 ”利用 主 分 量 分 析 进 行 分 类 预 处 理 的 可 能 缺陷 。 这 是 一 个 人 为 编制 的 二 维 分 类 问题 ， 图 中 用 不 
同 的 符号 标 出 了 来 自 不 同类 的 数据 。 第 一 主 分 量 方向 (对 于 高 维 的 问题 ， 这 就 是 投影 数据 的 
首选 方向 ) 实际 上 和 使 用 费 得 尔 线性 判别 式 技术 确定 的 最 佳 投 影 方向 几乎 是 完全 垂直 的 


10.12 ”补充 读物 


费 敬 尔 关于 线性 判别 式 分 析 的 最 初 论文 可 以 追溯 到 1936 F. Duda, Hart and Stork (2001 ) 
(Duda and Hart (1973) 所 著 的 经 典 模式 识别 教材 的 第 二 版 ) 中 包含 了 各 种 分 类 方法 的 丰富 
细节 ， 尤 其 是 特别 详细 的 讨论 了 正 态 多 元 分 类 器 (第 3 章 ) 和 线性 判别 式 及 感知 器 学 习 算 法 
(第 5 章 ), 以 下 文献 从 统计 和 角度 讨论 了 分 类 : Hand (1981, 1997), Devijver and Kittler (1982), 
Fukunaga (1990), McLachlan (1992), Ripley (1996), Devroye, Gyorfi and Lugosi (1996) 
以 及 Webb (1999). Bishop (1995) 从 神经 网 络 的 角度 ，Mitchell (1997) 从 人 工 智 能 的 角 
度 ，Witten and Frank (2000) 从 数据 挖掘 的 角度 探讨 了 分 类 。 

Dasarathy (1991) 的 文章 中 包含 很 多 关于 最 近邻 分 类 的 经 典 论文 ， 这 些 论文 有 的 来 自 统 
计 模 式 识别 的 文献 ,对 最 近邻 方法 的 一 般 性 讨论 (包括 降低 保留 集合 大 小 的 方法 ) 可 以 在 Hand 
(1981) 和 McLachlan (1992) 的 论文 中 找到 。Short and Fukunaga (1981)、Fukunaga and Flick 
(1984) Æ Myles and Hand (1990) 都 讨论 了 为 最 近邻 方法 选取 距离 尺度 的 策略 。Hastie and 
Tibshirani (1996) 描述 了 一 种 估计 标 距 的 局 部 适应 性 技术 。Devroye and Wagner (1982) if 
论 了 最 近邻 规则 的 渐进 性 。Hand (1982) 讨论 了 有 关 的 核 函数 方法 。 以 下 文献 考虑 了 高 维 
th “Sa” WAN: Beyer et al. (1999) 以 及 Bennett, Fayad and Geiger (1999) 的 论文 ， 他 
们 也 讨论 了 使 用 聚 类 来 近似 搜索 。 

对 建立 在 树 基础 之 上 的 模型 最 早 讨论 的 有 Morgan and Sonquist (1963). Quinlan (1986, 
1993) 把 决策 树 应 用 于 分 类 ， 使 这 种 方法 在 机 器 学 习 中 流行 起 来 。 在 统计 中 ，Breiman etal. 
(1984) 所 著 的 书 讨 论 了 CART (分 类 和 回归 树 ) 算法 ， 它 对 树 模 型 的 广泛 应 用 产生 深远 的 
影响 。Ripley (1996) 的 第 7 章 广泛 地 浏览 了 统计 学 、 计 算 机 科学 和 工程 实践 对 树 学 习 方 法 
的 不 同 贡献 。 最 新 的 一 篇 调查 文章 是 Murthy (1998) 所 写 。 以 下 著作 讨论 了 构建 决策 树 的 
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可 伸缩 算法 : Shafer, Agrawal and Mehta (1996), Gehrke, Ramakrishnan and Ganti (1998), 
以 及 Rastogi and Shim (1998). Shafer, Agrawal and Mehta (1996) 提出 的 Sprint 方法 仅 需要 
非常 小 的 内 存 空间 来 运行 , 但 是 它 仅 适 用 于 CART 分 裂 判 据 。Gehrke, Ramakrishnan and Ganti 
(1998) 的 雨林 (RainForest) 框架 可 用 于 多 种 分 裂 判 据 ， 但 是 它 的 内 存 使 用 量 依赖 于 变量 
定义 域 的 大 小 。Rastogi and Shim (1998) 的 方法 交替 进行 树 的 构建 和 剪 枝 ， 因 此 避免 了 不 必 
要 的 数据 访问 。 关 于 伸缩 性 问题 的 一 个 非常 好 的 调查 是 Ganti, Gehrke and Ramakrishnan 
(1999) 做 的 。 
以 下 文献 讨论 了 独立 假定 下 的 贝 叶 斯 方法 ， Russek，Kronmal and Fisher (1983), Hilden 
(1984), Kohavi (1996), Domingos and Pazzani (1997) 以 及 Hand and Yu (1999). 

Vapnik (1995), Burges (1998) 和 Vapnik (1998) 讨论 了 支持 向 量 机 。Scholkopf, Burges 
and Smola (1999) 搜集 了 有 关 这 一 主题 的 最 新 文献 ，Platt (1999) 描述 了 加 速 这 种 分 类 器 的 
训练 过 程 的 一 种 有 用 技术 。 

以 下 文献 讨论 了 像 模型 平均 这 样 的 分 类 器 组 合 技术 : Xu, Krzyzak and Suen (1992), 
Wolpert (1992), Buntine (1992), Ho, Hull and Srihari (1994), Schaffer (1994) 以 及 Oliver 
and Hand (1996). Freund and Schapire (1996) 讨论 了 boosting 技术 ， 关 于 这 方面 的 更 新 进 
行 理论 探讨 的 还 有 Schapire FA (1998) 以 及 Friedman, Hastie and Tibshirani (2000). 

Hand (1997) 详细 的 评论 了 评估 分 类 算法 的 方法 。 特 别针 对 误差 率 评 估 方 法 进行 评论 
的 有 Toussaint (1974), Hand (1986), McLachlan (1987) 以 及 Schiavo and Hand (1999)。 
Devijver and Kittler (1982) 详细 讨论 了 否决 选项 〈reject option). MacMillan and Creelman 

(1991) 对 ROC 和 相关 方法 进行 了 综述 。 
Little and Rubin (1987) 对 数据 残缺 、 残 缺 的 不 同类 型 以 及 如 何 处 理 做 了 有 创见 性 的 讨 
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第 11 章 用 于 回归 的 预测 建 模 


11.1 简介 


在 第 6 章 中 我 们 讨论 了 预测 模型 和 描述 模型 的 区 别 。 在 第 10 章 中 我 们 详细 地 描述 了 被 
预测 变量 〈 响 应 变量 (response variable)) 是 标 称 型 变量 的 预测 模型 一 一 也 就 是 它 仅 可 以 从 
有 限 〈 通 常 很 少 ) 数量 的 值 中 取 一 个 值 ， 并 且 这 些 值 根本 没有 数值 意义 ， 它 们 就 是 类 标识 符 
(class identifier)。 这 一 章 我 们 转向 响应 变量 具有 真正 数值 意义 的 预测 模型 。 比 如 某 个 零售 
商店 十 年 内 会 从 一 个 给 定 客户 那里 挣 多 少 钱 ， 正常 条 件 下 某 种 类 型 汽车 的 耗 油 率 是 多 少 ， 某 
个 网 站 在 给 定 的 某 个 月 中 用 户 访问 量 有 多 大 等 等 。 在 预测 中 用 作 输 入 的 变量 被 称 为 预报 变量 
(predictor variable)， 被 预测 的 变量 被 称 为 响应 变量 (response variable)。 有 些 作者 有 时 把 响 
应 变量 称 为 依赖 (dependent) 变量 或 者 目标 (target) 变量 ， 而 把 预报 变量 称 为 独立 
Gndependent) 变量 、 解 释 (explanatory) 变量 或 者 回归 (regressor) 变量 。 第 10 章 中 还 提 
到 了 用 在 分 类 中 的 其 他 一 些 术语 。 注 意 ， 预 报 变量 可 以 是 数字 型 的 ， 但 不 是 必须 这 样 。 我 们 
的 目标 就 是 使 用 对 象 的 样本 来 构建 一 个 模型 ， 通 过 这 个 模型 预测 出 一 个 新 案例 的 响应 变量 
值 ， 对 于 样本 来 说 ， 响 应 变量 和 预报 变量 都 是 已 知 的 ， 而 对 新 案例 来 说 仅 有 预报 变量 是 已 知 
的 。 这 实质 上 和 第 10 章 中 的 问题 是 相同 的 ， 只 不 过 是 响应 变量 的 类 型 由 标 称 型 变 成 了 数值 
型 。 事实 上 ， 在 本 章 的 后 面 我 们 将 看 到 我 们 也 可 以 在 回归 的 通用 框架 内 预测 标 称 型 变量 (也 
就 是 分 类 )。 

预测 的 精度 是 模型 的 最 重要 特征 之 一 ， 因 此 人 们 设计 了 很 多 用 来 衡量 精度 的 不 同 尺度 。 
我 们 也 可 以 使 用 这 些 尺度 来 选取 各 种 候选 模型 ， 以 及 选取 模型 中 的 参数 值 。 按照 前 面 的 说 法 ， 
这 些 尺度 就 是 用 来 比较 不 同 模型 的 评分 函数 。 

预测 精度 是 模型 的 一 个 关键 指标 ， 但 它 不 是 唯一 的 指标 。 例 如 ， 我 们 可 能 希望 模型 能 够 
显示 出 哪 一 个 预报 变量 最 为 重要 这 样 的 内 部 细节 。 我 们 还 可 能 坚持 应 该 在 模型 中 包含 某 些 变 
量 ， 因 为 我 们 有 充分 的 理由 包含 它们 ， 即 使 这 仅 对 预测 有 很 小 的 改进 。 与 此 相反 ， 我 们 有 时 
要 删除 一 些 可 以 增强 模型 性 能 的 变量 。( 这 种 情况 的 一 个 例子 发 生 在 信用 评估 问题 中 ， 在 很 
多 国家 中 把 性 别 和 种 族 包含 进 预 报 变 量 是 不 合法 的 。) 我 们 可 能 对 预报 变量 是 否 存在 相互 作 
用 感 兴趣 ， 也 就 是 一 个 变量 对 响应 变量 的 影响 是 否 依赖 于 其 他 变量 的 取 值 ， 出 于 很 明显 的 诛 
因 ， 我 们 可 能 对 用 简单 的 模型 是 否 可 以 实现 好 的 预测 感 兴趣 。 有 时 我 们 甚至 愿意 牺牲 一 些 预 
测 精 度 来 换取 模型 复杂 度 的 根本 性 降低 。 因 此 尽管 预测 精度 可 能 是 预测 模型 性 能 的 最 重要 部 
分 ， 但 是 我 们 必须 根据 模型 所 应 用 的 环境 来 综合 考虑 这 一 问题 。 





11.2 ”线性 模型 和 最 小 二 乘法 拟 合 


第 6 章 中 介绍 了 线性 模型 的 概念 ， 之 所 以 这 样 称呼 是 因为 它们 相对 参数 是 线性 的 。 这 种 
模型 的 最 简单 形式 得 到 的 响应 变量 y 的 预测 值 广 也 是 预报 变量 怀 的 线性 组 合 : 


w 


p 
$=a0 +X ajx) 11.1) 
i=l 


当然 实际 上 我 们 通常 不 能 完美 的 预测 出 响应 变量 ， 因 此 普遍 的 目标 是 预测 出 y 在 预报 变 
量 的 每 个 向 量 位 置 处 所 取 的 均值 一 一 所 以 $》 是 我 们 对 y 在 X = Oy, 1, x, ) 点 的 均值 的 预测 性 
估计 。 这 种 形式 的 模型 被 称 为 线性 回归 模型 (linear regression model)。 在 最 简单 的 情况 中 仅 
有 一 个 预报 变量 (单一 回归 )， 这 时 在 响应 变量 和 预报 变量 所 跨越 的 空间 中 可 以 得 到 一 条 回 
归 直 线 (regression line)。 更 一 般 的 情况 是 多 重 回归 (multiple regression )， 这 时 是 一 个 回归 
平面 (regression plane)， 这 种 模型 是 最 古老 、 最 重要 而 且 应 用 最 广泛 的 预测 模型 形式 。 之 所 
以 如 此 的 一 个 原因 是 这 种 模型 具有 明显 的 简洁 性 ; 简单 的 加 权 求 和 既 易于 计算 又 易于 理解 。 
另 一 个 非常 有 说 服 力 的 原因 是 它们 在 很 多 情况 下 都 可 以 达到 非常 好 的 性 能 即使 是 对 于 我 
们 有 是 够 把 握 认 为 预报 变量 和 响应 变量 不 是 线性 关系 的 情况 。 不 过 这 并 不 是 空穴来风 ， 而 是 
有 道理 的 ;如 果 我 们 把 连续 的 数学 函数 用 泰勒 级 数 展开 ， 那 么 我 们 经 常会 发 现 次 数 最 低 的 项 
一 一 线性 的 项 一 一 是 最 重要 的 ， 因 此 可 以 使 用 线性 模型 得 到 最 好 的 简单 近似 。 

选取 的 模型 恰好 完全 正确 的 情况 是 非常 少 的 。 对 于 数据 挖掘 来 说 更 是 如 此 ， 因 为 在 数据 
挖 据 中 模型 通常 都 是 试验 性 的 ， 而 不 是 建立 在 理论 基础 之 上 的 (参见 第 9 章 )。 此 外 ， 我 们 
的 模型 可 能 没有 包含 理想 预测 所 必需 的 所 有 预报 变量 〈 很 多 变量 可 能 还 没有 被 测量 出 来 或 者 
甚至 是 不 可 测量 的 )， 或 者 可 能 没有 包含 预报 变量 的 某 个 函数 〈 或 许 不 仅 需要 为 GHEY, 
或 者 需要 预报 变量 相 乘 ， 因 为 它们 对 y 的 影响 是 相互 作用 的 ); 而 且 任何 情况 下 测量 值 都 不 
是 十 全 十 美的 。 所 以 对 变量 y 的 预测 会 存在 关联 误差 ， 从 而 使 每 个 向 量 (zi，…, x,) 是 和 可 
能 y 值 的 分 布 相 联系 的 ， 就 像 我 们 上 面 所 指出 的 。 

所 有 这 些 问 题 意 味 着 样本 中 实际 y 值 会 和 预测 出 的 值 不 同 。 观 察 到 的 和 预测 出 的 值 之 间 
的 差异 被 称 为 残 差 〈residual)， 我 们 把 它 表 示 为 e: 











yO = HD) + elD) a+ Y axo +el), {Sin (11.2) 
j=l 
按照 矩阵 表示 , 如 果 我 们 用 向 量 y 表示 训练 样本 中 的 个 对 象 的 观察 到 y 测量 值 ,用 nxp) 


的 矩阵 X 表示 测量 n 个 对 象 得 到 的 p 种 预报 变量 值 ( 加 入 额外 的 一 列 1 是 为 了 和 模型 中 的 
截 距 项 w 对 应 )， 那 么 我 们 可 以 根据 前 面 的 模型 把 观察 到 响应 值 和 预报 测量 值 间 的 关系 表 
示 成 : 

y=Xate (11.3) 
其 中 y 是 nx 的 响应 值 矩阵 ，a = (ao，… , an) 表示 (p+1)xl 的 参数 值 向 量 ，e = (e(1),…,e(n)) 
是 包含 残 差 的 nxl 向 量 。 显 然 我 们 需要 选取 模型 中 的 参数 〈 向 量 a 中 的 (p+1) 个 值 ) 使 得 
到 的 预测 尽 可 能 地 准确 。 换 个 角度 来 说 ， 我 们 必须 以 某 种 方式 找到 对 a 的 估计 使 分 歧 e 
最 小 化 。 为 了 实现 这 个 目的 ， 我 们 合并 e 中 的 元 素 以 得 到 一 种 可 以 最 小 化 的 单一 数学 尺 
度 。 人 们 已 经 提出 了 很 多 种 合并 e(i) 的 方法 ， 但 是 到 目前 为 止 最 流行 的 方法 是 对 它们 的 平 
方 求 和 也 就 是 误差 平方 求 和 评分 函数 。 这 样 ， 我 们 只 要 求 出 使 下 式 最 小 化 的 参数 向 


量 a: 
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2 
n n p 
Fe -到 0- oo (11.4) 


i=l i=l j=0 


在 这 个 表达 式 中 , y(i) 是 在 第 i 个 训练 样本 点 观察 到 的 y 值 , 并 且 (xo(D, x, = C, 





xii), ***, xp(i)) 是 这 个 点 的 预报 变量 向 量 。 出 于 很 明显 的 理由 ， 这 种 方法 被 称 为 最 小 二 乘法 
(least squares method)。 简 单 起 见 ， 我 们 把 使 上 式 最 小 化 的 参数 向 量 表示 为 (ao，… a). C 
然 如 果 我 们 使 用 某 种 符号 指出 它 是 一 种 估计 ， 比 如 (60,…,6, )， 那 么 会 更 准确 ， 但 是 我 们 的 
表示 更 加 简洁。 〉 如 果 使 用 矩阵 形式 ， 那 么 可 以 证 明 使 公式 11.4 最 小 化 的 参数 值 为 : 

a= (X'X)'X’y (11.5) 


在 线性 回归 中 通常 把 参数 a 称 为 回归 系数 。 一 旦 估计 出 了 这 些 参数 ， 就 可 以 把 它们 代 到 
公式 11.1 中 进行 预测 了 。 对 于 预报 变量 的 向 量 丸 ， 可 以 用 尔 = xf a= ax, 预测 出 它 的 y E 
Vee 
11.2.1 拟 合 模型 的 计算 问题 


直接 求解 公式 11.5 需要 矩阵 XX 是 可 逆 的 。 如 果 样 本 容量 很 小 〈 这 在 数据 挖掘 情况 下 
很 少见 ) 或 者 预报 变量 的 测量 值 间 存 在 依赖 性 〈 这 并 不 少见 )， 那 么 就 会 产生 问题 。 对 于 后 
一 种 情况 ， 各 种 现代 软件 包 通 常会 发 出 警告 ， 这 是 可 以 采取 一 些 合适 措施 ， 比 如 去 掉 一 些 预 
报 变量 。 

有 时 多 个 预报 变量 的 测量 值 不 是 严格 线性 依赖 的 ， 但 依赖 程度 又 很 高 ， 这 会 导致 更 加 束 
手 的 问题 。 这 时 和 矩阵 是 可 逆 的 ， 但 解 是 不 稳定 的 。 这 意味 着 观察 到 X 值 的 轻微 变化 会 导致 a 
估计 值 的 重大 变化 。 不 同 的 测量 误差 或 训练 样本 的 轻微 变化 导致 不 同 的 参数 估计 ， 这 个 问题 
被 称 为 多 重 共 线 性 《multicollinearity )。 如 果 估 计 出 的 参数 值 是 我 们 所 感 兴趣 的 焦点 一 一 例 
如 我 们 要 知道 哪个 变量 在 模型 中 最 重要 ， 那 么 估计 出 的 参数 不 稳定 就 是 一 个 问题 。 然 而 ， 如 
果 我 们 所 关心 的 就 只 是 预测 的 精度 ， 那 么 这 通常 不 是 问题 : 尽管 数据 的 轻微 变化 会 产生 根本 
不 同 的 a 向 量 ， 但 是 所 有 这 些 向 量 都 会 对 大 多 数 x 向 量 产 生 相似 的 预测 。 

通常 是 用 线性 代数 中 的 等 式 求解 技术 〈 比 如 LU 分 解 或 奇异 值 分 解 (SVD)) 来 解 公式 
11.5， 这 往往 比 直接 求 XTX 的 逆 垂 阵 具 有 更 好 的 数值 稳定 性 。 不 论 使 用 哪 种 特定 的 技术 ， 潜 
在 的 计算 复杂 度 通常 都 是 一 样 的 ， 也 就 是 0 (pn +p’). pin 项 对 应 于 计算 pxp 甜 阵 C=XX 
中 的 每 个 元 素 都 需要 做 n KRE. p 项 对 应 于 从 Ca = X'y 中 解 出 a。 

在 第 6 章 中 我 们 曾经 指出 ， 当 在 回归 模型 中 加 入 更 平滑 的 模型 形式 时 (不 仅 包含 原始 
变量 x, 而且 包含 原始 变量 的 变换 )， 它 仍 会 保持 可 加 性 。 图 11-1 所 示 的 散 点 图 显示 了 当 
逐步 增加 接受 实验 者 所 执行 的 体力 运动 的 难度 时 而 采集 到 的 数据 。 水 平 轴 显 示 的 是 吸 氧 
量 ， 垂 直 轴 显示 的 是 一 种 衡量 从 肺 中 呼出 气体 的 尺度 。 从 散 点 图 中 容易 看 出 这 两 个 变量 间 
的 关系 是 非 线性 的 。 从 图 中 可 以 看 出 直线 y = ao+ ax 对 数据 拟 合 得 很 差 。 根 据 这 个 模型 所 
作出 的 预测 仅 对 于 x ORAE) 大 于 1000 并 小 于 4000 的 情况 是 比较 精确 的 。( 尽 管 如 此 ， 
这 个 模型 也 不 是 非常 的 粗 劣 一 一 正如 前 面 所 指出 的 ， 关 于 x 的 线性 模型 可 以 给 出 比较 好 的 
近似 ， 这 一 点 显然 是 正确 的 . ) 然而 ， 模 型 y = ao + ax + oz 刀 所 对 应 的 拟 合 曲线 如 图 11-2 
所 示 。 这 个 模型 的 参量 仍然 是 线性 的 ， 所 以 使 用 公式 11.5 中 的 标准 挎 阵 可 以 很 容易 地 侦 计 
出 这 些 参数 。 显 然 从 这 个 模型 得 到 的 预测 已 经 接近 完美 了 ， 余 下 的 不 精确 性 是 不 可 避免 的 
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图 11-2 用 包含 x? 项 的 模型 拟 合 图 11-1 中 的 数据 


11.2.2 ”线性 回归 的 概率 解释 


我 们 可 以 使 用 这 种 非 正 式 的 数据 分 析 方法 把 回归 模型 拟 合 到 任何 包含 一 个 响应 变量 和 一 
系列 预报 变量 的 数据 集 上 ， 并 得 到 一 个 估计 出 的 回归 系数 向 量 。 如 果 我 们 的 目标 仅仅 是 产生 
一 种 对 训练 数据 的 方便 的 概括 〈 非 常 少 的 时 候 是 这 样 )， 那 么 我 们 便 可 以 就 此 停止 了 。 然 而 
这 一 章 所 关心 的 问题 是 预测 建 模 ， 我 们 的 目标 超出 了 训练 数据 的 范围 ， 是 要 为 样本 外 的 其 他 
对 象 预测 出 y 值 。 拟 合 给 定数 据 固然 很 好 ， 但 是 我 们 真正 感 兴趣 的 是 对 从 同一 过 程 产生 的 未 
来 数据 的 拟 合 情 况 ， 以 使 未 来 的 预测 尽 可 能 地 精确 。 为 了 实现 这 个 目标 ， 我 们 必须 把 这 种 建 
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模 过 程 置 于 更 正式 的 推理 框架 内 。 为 此 ， 我 们 假定 每 个 观察 值 y 全 是 由 预报 变量 ozx (i) 的 加 
权 求 和 和 一 个 随机 项 e (OFER, HH e 服从 独立 于 其 他 值 的 (0,0) 分 布 。( 注 意 这 里 
隐 含 假定 了 对 于 预报 向 量 的 所 有 可 能 值 来 说 ， 随 机 项 的 方差 都 是 相同 的 一 一 号 。 在 下 血 我 们 
将 进一步 讨论 这 个 假定 。) 于 是 nx] 的 随机 向 量 Y 的 形式 为 Y=Xa + ce。 公式 11.3 中 的 axi 
的 向 量 y 是 来 自 这 个 分 布 的 一 个 实现 。nx1 的 向 量 e 的 分 量 经 常 被 称 为 误差 。 注 意 它 们 与 残 
差 e 不 同 。 误 差 是 来 自 一 个 给 定 分 布 的 随机 实现 ， 而 残 差 是 拟 合 后 模型 和 观察 到 y 值 间 的 差 
异 。 也 该 注意 wa 不 同 于 a。w 代表 了 潜在 的 未 知 真实 值 ， 而 a 代表 了 实际 模型 中 所 取 的 值 。 

可 以 证 明 在 这 个 框架 内 对 a 的 最 小 二 乘法 估计 也 就 是 对 的 极 大 似 然 估计 。 些 外， 前 面 
得 到 的 a 估计 的 协 方差 矩阵 为 (X7X) 102， 这 个 协 方差 矩阵 表示 了 在 对 参数 a 的 估计 中 的 不 确 
定性 。 在 仅 有 一 个 预报 变量 的 情况 中 ， 下 式 给 出 了 截 距 项 的 方差 ; 





一 2 2 
1¢+——* Z (11.6) 
TxD -x |n 
并 且 下 式 给 出 了 斜率 的 方差 : 
2 
一 一 一 一 (11.7) 
2;(x(i) ~—X) 


Ep y 是 这 个 唯一 预报 变量 的 均值 。 前 面 的 a 的 协 方差 矩阵 的 对 角 线 元 素 给 出 了 回归 系数 的 
方差 一 一 可 以 用 这 些 数字 来 测试 某 个 回归 系数 是 否 和 零 有 显著 的 差异 。 WR 是 (X7X) ao 的 
盘 ) 个 对 角 线 元 素 ， 那 么 可 以 把 aj /Vv; 的 比率 和 分 布 i(n-p -1) 比较 来 看 回归 系数 是 否 为 
零 。 然 而 ， 正 如 下 面 将 要 讨论 的 ， 这 种 测试 仅 当 模型 中 包含 了 另 一 个 变量 时 才 有 意义 ， 对 更 
加 精密 的 建 模 过 程 来 说 ， 可 以 使 用 其 他 的 方法 ， 这 也 将 在 下 面 讨论 。 如 果 x 是 新 对 象 的 预报 
向 量 ， 预 测 出 的 y 值 是 放 ， 那 么 乡 的 方差 是 x7(XX)'xo。 对 于 仅 有 一 个 预报 变量 的 情况 ， 


RELA +a- DILO- EE x 距离 训练 样本 的 均值 越 远 ， 这 个 方差 越 大 。 
n 


也 就 是 说 ， 从 方差 角度 看 ， 对 那些 处 于 预报 变量 分 布 末端 的 对 象 作出 的 预测 是 精度 最 低 的 。 
也 请 注意 基于 这 个 方差 的 置信 区 间 (SLB 4B) 就 是 对 y HMA (predicted value) 的 信赖 
RE (confidence value). 

我 们 还 可 能 对 预测 区 间 (prediction interval) (这 样 称呼 多 少 有 些 使 人 困惑 ) 感 兴趣 ， 因 
为 它 给 出 了 对 于 给 定 的 x 值 ，y 观察 值 的 可 能 范围 ， 而 不 是 预测 值 的 可 能 范围 。 预 测 区 间 必 
须 包含 来 自 预测 的 不 确定 性 ， 以 及 y 相对 预测 值 的 变化 所 导致 的 不 确定 性 。 这 意味 着 还 该 在 


上 面 的 方差 中 加 入 一 项 c*， 于 是 得 到 20+ 一 +(x- 习 ?1ZC(D 局) ， 











例 14.1 线性 回归 的 一 种 最 重要 特例 是 当 仅 有 一 个 预报 变量 的 时 候 。 图 11-3 
显示 了 在 1984 年 的 苏格兰 登山 赛 中 时 间 (单位 :分 钟 ) 对 里 程 (单位 :英里 ) 的 散 点 
图 ， 对 这 些 数 据 的 简单 线性 回归 估计 出 截 距 值 为 -4.83， 回 归 系 数 为 8.33。 大 多 数 的 
现代 数据 分 析 软 件 包 都 会 给 出 相关 的 估计 标准 误差 ， 以 及 对 零 假 设 这 里 的 零 假 设 
是 : 产生 数据 的 真实 参数 等 于 零 ) 的 显著 性 检验 。 在 本 例 中 ， 标 准 误差 分 别 是 5.76 
和 0.62， 显 著 性 概率 为 0.41 和 < 0.01。 据 此 我 们 可 以 得 出 结论 : 有 充足 的 证 据说 明 
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确实 存在 正 的 线性 关系 ， 但 是 没有 证 据 证 明 截 距 不 是 霍 。 从 图 11-3 的 散 点 图 可 以 
看 出 数据 点 对 两 个 变量 都 显示 出 了 明显 的 不 均匀 性 (skewness) ( 越 向 图 的 右上 和 角 
点 越 稀疏 )， 显 然 回 归 线 的 位 置 对 图 中 右 侧 点 的 精确 位 置 比 对 左 侧 点 更 加 敏感 。 对 
结果 可 能 影响 很 大 的 点 被 称 为 高 优势 (leverage) 点 一 一 它们 是 估计 性 能 的 极端 值 
所 对 应 的 点 。 确 实 产 生 很 大 影响 的 点 被 称 为 影响 点 (influential point )。 例 如 ， 如 果 
图 11-3 中 最 右边 的 点 的 时 间 为 100 (里 程 仍 然 是 28 )， 那 么 显然 它 会 对 回归 直线 产 
生 很 大 的 影响 。 高 优势 点 的 不 对 称 性 是 我 们 所 不 希望 的 。 我 们 可 以 通过 降低 稀 朴 性 
来 弥补 这 个 不 足 比如 在 拟 合 回归 直线 前 对 这 两 个 变量 都 进行 对 数 转换 。 


11.2.3” 拟 合 后 模型 的 解释 


可 以 这 样 解释 多 重 回 归 模 型 中 的 系数 :如 果 第 j 个 预报 变量 x 在 所 有 其 他 变量 保持 固定 
时 增 大 一 个 单位 ， 那 么 响应 变量 会 增 大 w。 因 此 回归 系数 说 明了 每 个 预报 变量 的 条 件 效应 
(conditional effect)， 也 就 是 在 所 有 其 他 预报 变量 保持 恒定 的 条 件 下 它 对 响应 变量 的 影响 。 
这 一 点 是 解释 回归 模型 的 关键 。 特 别 值得 注意 的 是 ， 与 第 j 个 变量 相关 的 回归 系数 的 大 小 将 
依赖 于 模型 中 其 他 的 变量 。 如 果 我 们 是 以 序列 化 的 “sequential) 方式 构建 模型 ， 那 么 这 显然 
更 加 重要 ， 因 为 当 加 入 男 一 个 变量 时 ， 已 经 在 模型 中 的 那些 变量 的 系数 将 会 变化 。( 这 里 存 
在 一 种 例外 的 情况 。 如 果 各 个 预报 变量 是 互 不 相关 的 ， 那 么 被 估计 的 回归 系数 不 会 受 模型 中 
其 他 变量 的 存在 与 否 影响 。 然 而 ， 虽 然 在 人 为 设计 的 实验 中 这 种 情况 是 很 普遍 的 ， 但 是 在 数 
据 控 掘 所 面 对 的 次 级 数据 分 析 中 这 是 很 少见 的 。) 我 们 可 以 通过 回归 系数 来 比较 预报 变量 的 
单位 变化 对 响应 变量 所 产生 的 影响 ， 从 这 个 意义 上 来 说 回归 系数 的 大 小 说 明了 变量 的 相对 重 
要 性 。 还 应 该 注意 影响 的 大 小 依赖 于 测量 预报 变量 所 选取 的 单位 。 如 果 我 们 用 公里 来 代替 毫 
米 来 测量 x,， 那 么 与 它 相 对 应 的 系数 要 乘 以 一 百 万。 这 可 能 导致 变量 比较 的 困难 ， 所 以 人 们 
经 常 工作 在 标准 化 后 的 变量 上 一 一 相对 每 个 预报 变量 的 标准 偏差 来 衡量 这 个 变量 。 
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里 程 ( 英 里) 


图 11-3 ”记录 时 间 分钟) 对 里 程 (英里 〉 的 散 点 图 。 图 中 数据 来 自 1984 年 的 苏格兰 登山 赛 
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前 面 我 们 使 用 预测 的 和 观察 到 的 y 值 之 问 的 误差 平方 和 作为 选取 模型 中 参数 值 的 标准 ， 

这 就 是 残 差 平 方 和 (residual sum of squares 或 者 sum of squared residuals): Ye(iP=X (vi)- 
》(D)。 在 某 种 意义 上 来 说 ， 如 果 我 们 就 用 y 〈 样 本 的 y 值 均值 ) 来 预测 所 有 的 y 值 〈( 也 就 
是 忽略 模型 的 输入 ， 不 论 x 是 什么 ， 总 是 把 输出 猜测 为 y 的 均值 )， 那 么 将 得 到 最 差 的 模型 。 
我 们 把 这 个 最 差 模型 的 误差 平方 和 y (i)- 了 定义 为 总 平方 和 (total sum of squares)。 模型 
的 残 差 平方 和 与 总 平方 和 的 差别 是 可 以 说 明 模型 的 回归 属性 的 平方 和 因此 称 其 为 回归 平 
方 和 《〈regression sum of squares)。 下 面 是 预测 值 》D 和 总 体 均值 了 问 的 差异 平方 和 : 

> (0)-yY。 回 归 平 方 和 与 总 平方 和 的 比率 被 称 为 “多 重 相 关系 数 《multiple correlation 
coefficient)”， 经 常 使 用 RP RAC: 


apy .2 
p- Ne ais) 

YOO- 

如 果 尺 值 接 近 1， 那 么 说 明 这 个 模型 概括 了 数据 中 y 的 绝 大 部 分 变化 信息 。 对 每 个 平 37 
方 和 作出 贡献 的 独立 分 量 的 数目 被 称 为 这 个 平方 和 的 自由 度 (degrees of freedom)。 总 平方 
和 的 自由 度 是 n-1( 比 样本 容量 小 1， 因 为 所 有 分 量 都 是 相对 均值 计算 的 )。 残 差 平 方 和 的 
自由 度 是 nip (虽然 在 汇总 中 有 项 ， 但 它 是 p+1 个 回归 系数 计算 出 的 )。 回 归 平 方 和 的 
自由 度 是 p 一 一 残 差 平方 和 的 自由 度 和 总 平方 和 自由 度 的 差 。 把 这 些 平方 和 以 及 相关 的 自 
由 度 放 在 一 起 (如 表 11-1 所 示 ) 可 以 很 容易 看 出 它们 的 差异 。 最 后 一 列 的 含义 将 在 下 文 介 
绍 。 








an 





表 11-1 关于 回归 的 方差 分 解 分 析 表格 





变化 的 来 源 平 方 和 自 由 度 均 方 
回归 YG0-»? p Eoo- /p 
RE Yow- soy’ n-p- Yo@- HOY n-p- 
汇总 00- n-1 


11.2.4 ”推理 和 泛 化 


前 面 我 们 已 经 指出 建立 预测 模型 的 目的 就 是 推理 ， 也 就 是 对 不 知道 y 值 的 对 象 作出 论断 
(预测 )。 这 意味 着 拟 合 训练 数据 并 非 我 们 的 真正 目的 。 举 例 来 说 ， 不 能 仅仅 因为 估计 出 的 
回归 系数 不 为 零 就 推出 这 些 变量 是 有 关 的 : 有 可 能 完全 是 由 于 我 们 的 模型 恰巧 捕捉 了 训练 样 
本 的 特异 性 。 对 于 数据 挖掘 的 情况 更 是 如 此 ， 因 为 在 数据 控 掘 中 要 探索 很 多 模型 ， 而 且 这 些 
模型 是 以 一 种 比较 自动 的 方式 和 数据 拟 合 的 。 正 如 前 面 所 讨论 的 ， 我 们 需要 一 种 方式 来 检验 
(test) 模型 ， 看 一 看 观察 到 的 数据 有 多 大 可 能 性 是 随机 产生 的 ， 即 使 并 不 知道 产生 样本 数 
据 的 总 体 的 结构 。 这 种 情况 下 我 们 需要 检验 总 体 的 回归 系数 是 否 真 的 为 0,，( 当 然 ， 这 个 是 
我 们 感 兴趣 的 唯一 检验 方法 ， 但 这 是 最 经 常 需要 的 方法 之 一 。) 可 以 证 明 如 果 的 值 确实 都 
是 0 OQ ARE e ORA NO, DKI), ALA 


》 60@-3Y /p aie) 
Yod- n-p- 
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服从 Fo, n-p-1) 分 布 。 这 就 是 表 11-1 中 的 两 个 均值 平方 的 比 。 检 验 是 通过 比较 这 个 比例 值 
和 F(p,n-p-1)3) WIERE Cupper critical level) 来 进行 的 。 如 果 这 个 比例 超过 了 这 个 分 布 的 
上 限 值 那么 这 个 检验 就 是 显著 的 (也 就 是 说 发 生 了 一 个 小 概率 事件 ) 一 一 我 们 可 以 得 出 结论 : 
在 ”和 变量 羽 间 存在 线性 关系 。 如 果 这 个 比例 小 于 这 个 临界 值 ， 那 么 我 们 便 没 有 证 据 来 拒绝 
零 假 设 (总体 的 回归 系数 都 是 零 )。 
11.25 ”模型 搜索 和 建 模 

前 面 我 们 介绍 了 一 种 总 的 检验 方法 来 观察 一 个 给 定 模型 中 的 回归 系数 是 否 都 是 零 。 然 
而 ， 更 常见 的 情况 是 要 对 模型 空间 进行 搜索 分 析 各 个 模型 以 寻找 一 个 从 某 种 意义 上 来 说 
“最 好 ”的 模型 。 尤 其 是 我 们 经 常 需要 向 已 经 包含 在 模型 内 的 变量 集合 中 加 入 新 的 预报 变量 。 
注意 这 包括 仅 加 入 一 个 额外 变量 的 特例 ， 而 且 也 要 处 理 相反 的 情况 ， 也 就 是 从 模型 中 删除 变 


里 











为 了 比较 模型 我 们 需要 一 个 评分 函数 。 和 以 前 一 样 ， 最 明显 的 方案 就 是 使 用 预测 到 的 
和 观察 到 的 y 值 间 的 误差 平方 和 。 假定 我 们 在 比较 两 个 模型 :一 个 模型 有 p 个 预报 变量 GK 
型 M)， 另 一 个 是 我 们 准备 考虑 的 最 大 模型 ， 它 有 4 个 变量 (包含 了 我 们 认为 有 关 的 所 有 
未 经 转化 的 变量 ， 以 及 所 有 我 们 认为 有 关 的 这 些 变量 的 转化 形式 )， 我 们 称 它 为 M*。 因 为 
每 个 模型 都 将 有 一 个 与 之 关联 的 残 差 平方 和 ， 所 以 这 些 臧 差 平方 和 之 间 的 差异 可 以 告诉 我 
们 较 大 的 模型 比较 小 的 模型 更 好 拟 合 数据 的 程度 。( 或 者 等 价 的 ， 我 们 可 以 计算 回归 平方 
和 间 的 差异 。 因 为 回归 平方 和 与 残 差 平方 和 加 起 来 是 总 平方 和 ， 而 总 平方 和 对 这 两 个 模型 
来 说 是 相同 的 ， 所 以 这 两 种 计算 会 得 到 相同 的 结果 .。 ) 这 两 个 模型 的 残 差 平方 和 之 差 的 自 
HEE g-p， 也 就 是 拟 合 较 大 模型 M* 要 计算 的 额外 回归 系数 。 残 差 平方 和 之 差 和 目 由 度 
之 差 的 比例 又 给 出 了 一 -种 均 方 一 一 两 个 模型 间 差异 的 均 方 。 把 这 个 均值 与 模型 M* 的 均 方 
加 以 比较 便 得 到 了 对 这 两 个 模型 间 差异 的 FAA, WE 11-2 所 示 。 从 表 中 可 以 看 出 ， 是 
把 这 个 比例 





| So - sa | (=F - sao | 
(q-p) (n-q-1) 


和 F(q—p ,nq-1) 分 布 的 临界 值 进 行 比较 。 


表 11-2 用 于 建 模 的 方差 分 解 分 析 表 


变化 的 来 源 平方 和 自 由 度 均 FF 
回归 模型 1 SS( M ) P SS(M)/p 
完全 回归 模型 SS{ M* ) q SS(M*)/q 
+) SSM (SS(M*) — SS(M)) 
差 SS( M* )— SS( M ) gp Gp 
T)- SS(M* 
残 差 SS(T)— SS(M*) n-q-1 (SST) - SS(M*)) 
(n-q-!) 
汇总 SS(T) nl 


-~ -一 


如 果 我 们 仅仅 要 比较 几 个 模型 这 样 做 是 很 好 的 ， 但 是 数据 挖掘 问题 经 常 需 要 依赖 于 自动 
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的 建 模 过 程 。 大 多 数 的 现代 数据 挖掘 软件 包 都 提供 了 这 样 的 自动 过 程 ， 有 很 多 种 不 同 的 策略 
可 以 采用 。 一 种 基本 的 形式 是 正 向 选取 法 (forward selection )， 也 就 是 每 次 向 当前 的 模型 中 
加 入 一 个 变量 ， 在 第 8 章 中 曾经 提 到 过 这 种 方法 。 有 具体 来 说 就 是 每 一 步 从 潜在 的 变量 集合 中 
选取 一 个 变量 ， 选 择 的 标准 是 可 以 使 预测 能 力 得 到 最 大 的 提高 〈 以 残 差 平方 和 的 降低 来 衡 
量 )， 并 且 只 要 提高 的 幅度 超过 了 一 个 预先 指定 的 阐 值 就 一 直 重 复 这 个 过 程 。 理 想 的 情况 是 ， 
只 要 对 预测 能 力 的 提高 从 统计 角度 来 看 是 显著 的 ， 那 么 就 该 继续 这 种 加 入 变量 的 过 程 ， 但 是 
在 实践 中 这 是 难以 保证 的 : 变量 的 选取 过 程 必然 包括 很 多 并 非 都 独立 的 检验 ， 这 使 显著 性 值 
.的 正确 计算 并 不 是 一 个 简单 过 程 。 基 于 表 11-2 中 的 简单 显著 性 水 平 不 适用 于 进行 多 重 依赖 
检验 的 情况 。( 这 里 隐 舍 的 另 一 个 问题 是 ， 如 果 使 用 显著 性 水 平 来 选取 变量 ， 那 么 它 就 是 被 
用 作 了 评分 函数 ， 因 此 就 不 该 被 赋予 概率 解释 。》 

当然 ， 在 实践 中 我 们 可 以 使 用 第 7 章 讨论 的 用 于 选取 回归 模型 的 任 一 种 评分 函数 ， 比 如 
BIC、 最 短 描述 长 度 、 交 叉 验 证 或 者 其 他 的 贝 叶 斯 方法 。 这 些 评分 函数 为 我 们 提供 了 替代 假 
设 - 检 验 框架 〈 比 较 向 模型 中 增加 或 删除 项 的 统计 显著 性 ) 的 其 他 方案 。 像 BIC 这 样 带 有 和 
罚 的 评分 函数 ， 以 及 交叉 验证 方法 特别 针对 回归 模型 的 变 体 是 实践 中 选取 回归 模型 的 最 常用 
评分 函数 。 

与 正 向 选取 法 相反 的 策略 是 反 向 消除 法 (backward elimination )。 从 我 们 可 以 考虑 的 最 
复杂 模型 《上面 的 最 大 模型 M) 开始 ， 逐 步 地 消除 变量 ， 选 取 被 消除 变量 的 标准 是 使 残 差 
平方 和 的 增长 最 小 (也 是 由 某 个 阐 值 来 控制 )。 另 一 种 变 体 是 把 正 向 选取 法 和 反 向 选取 法 结 
合 起 来 。 举 例 来 说 ， 我 们 可 以 加 入 两 个 变量 ， 删 除 一 个 ， 再 加 入 两 个 ， 再 删除 一 个 ， 依 此 类 
推 .对 于 变量 数 p 特别 大 的 数据 集 来 说 ， 从 计算 的 角度 来 看 正 向 选取 法 比 反 向 选取 法 更 可 行 。 
分 步 (stepwise) 方法 试图 限制 要 搜索 的 预报 变量 可 能 集合 空间 ， 目 的 是 使 搜索 易于 驾驭 。 
但 是 如 果 搜 索 的 范围 是 受 约束 的 ， 那 么 就 有 可 能 错过 最 有 效 的 变量 组 合 。 很 少 的 情况 中 《如 
果 潜 在 的 预报 变量 集合 很 小 )， 我 们 可 以 分 析 变 量 的 所 有 可 能 集合 (尽管 对 于 p 个 变量 ， 存 
在 《2?-1) 个 可 能 子 集 )。 通 过 使 用 像 分 枝 定 界 这 样 的 策略 《依赖 残 差 平 方 和 的 单调 性 )， 可 
以 进一步 扩大 可 分 析 问 题 的 规模 (参见 第 8 章 )。 

有 两 点 注意 事项 需要 指出 。 第 一 ， 正 像 我 们 已 经 指出 的 ， 随 着 向 模型 中 加 入 新 的 变量 ， 模 型 
中 已 经 存在 的 变量 的 系数 会 逐渐 的 变化 。 所 以 当 扩 展 模型 时 ， 对 模型 很 重要 的 变量 的 系数 可 能 变 
小 。 第 二 ， 正 如 我 们 在 前 面 的 章节 中 所 讨论 的 ， 如 果 进 行 的 搜索 过 于 精细 ， 那 么 过 度 拟 合 训练 数 
据 的 可 能 性 会 很 大 一 一 也 就 是 说 ， 得 到 的 模型 很 好 地 拟 合 了 训练 数据 〔 残 差 平 方 和 很 小 )， 但 是 
对 新 数据 的 预测 效果 却 很 差 。 


11.26 ”模型 诊断 和 审查 


尽管 多 重 回归 是 一 种 强大 而 且 应 用 广泛 的 技术 , 但 是 它 的 一 些 假定 是 有 局 限 性 的 。 例 如 ， 
y 分 布 的 方差 在 每 个 向 量 x 处 都 一 样 这 一 假定 经 常 是 不 合适 的 。( 这 个 相同 方差 的 假定 被 称 
为 同方 差 性 〔homoscedasticity)， 相 反 的 情况 被 称 为 异 方差 性 〈heteroscedasticity)。 例 如 ， 图 
11-4 所 示 为 美国 56 个 州 的 一 月 份 正常 平均 最 低温 度 〈 单 位 下 度 ) 相对 于 纬度 《单位 纬度 ) 
的 散 点 图 。 有 证 据 表明 至 少 对 于 较 低 的 温度 ， 温 度 的 方差 随 着 纬度 增 大 而 增 大 《〈 尽 管 温度 的 
均值 看 起 来 是 下 降 的 )。 在 这 种 新 的 条 件 下 ， 我 们 仍然 可 以 应 用 前 面 的 标准 最 小 二 乘 算法 来 
估计 参数 而 且 如 果 模 型 的 形式 是 对 的 ， 那 么 得 到 估计 仍然 是 无 偏 的 )， 但 是 因为 可 能 找到 
具有 更 小 方差 的 估计 量 ， 所 以 从 这 个 意义 上 来 说 这 么 做 并 不 是 最 好 的 。 
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要 达到 更 好 的 效果 ， 我 们 需要 对 基本 的 方法 进行 修改 。 最 关键 的 是 ， 我 们 需要 调整 各 
个 部 分 使 以 较 大 方差 和 y 联系 的 x 值 在 模型 拟 合 过程 中 起 到 的 作用 较 小 。 更 直接 地 讲 一 一 
也 就 是 让 更 精确 的 值 更 大 程度 的 影响 估计 量 。 具 体 来 说 ， 需 要 修改 求解 公式 11.5。 假 定 nx 
的 随机 向 量 e 的 协 方差 矩阵 为 nxn 的 矩阵 PV 《前 面 我 们 取 V=I)。 方 差 不 等 的 情况 意味 着 V 
是 一 个 对 角 阵 ， 它 的 项 不 是 全 部 相等 的 。 那 么 我 们 可 以 〈 参 见 线性 代数 标准 教科 书 ) 找到 一 
个 非 奇异 的 矩阵 P， 使 PP =V。 我 们 可 以 使 用 P 来 定义 一 个 新 的 随机 向 量 f=P*ce， 并 且 容 
易 证 明 f 的 协 方差 矩阵 是 of。 利用 这 个 想法 ， 我 们 通过 对 老 的 模型 乘 以 PT 来 得 到 一 个 新 的 
模型 : 
P'Y=P'Xa+P'!e (11.10) 
或 者 
Z=Wp+f (11.11) 
这 样 便 具备 了 应 用 标准 最 小 二 乘 算法 所 需 的 形式 。 如 果 我 们 这 么 做 ， 并 把 得 到 的 解 转变 
成 包含 原始 变量 的 形式 ， 那 么 便 得 到 ; 
| a=(X'V 'X)XV'y (11.12) 
这 便 是 加 权 的 最 小 二 乘 解 。 这 个 估计 出 的 参数 向 量 a 的 方差 是 (XV XY ‘0. 
y 分 布 的 方差 对 于 不 同 的 x 向 量 不 等 只 是 导致 基本 多 重 回归 的 假定 不 成 立 的 一 种 情况 。 
还 存在 其 他 的 情况 。 因 此 我 们 真正 需要 的 是 找到 一 种 可 以 探索 模型 质量 的 方式 ， 以 及 可 以 使 
我 们 探测 到 模型 在 哪里 和 为 什么 背离 了 假定 的 工具 。 换 句 话 来 说 , 我 们 需要 诊断 模型 的 工具 。 
在 最 简单 的 回归 形式 中 ， 仅 存在 一 个 预报 变量 ， 我 们 可 以 根据 y 对 x 的 曲线 参见 图 11-1、 
图 11-2 和 图 11-4) 来 观察 模型 的 质量 。 但 是 更 一 般 的 情况 下 ， 预 报 变量 并 不 只 一 个 ， 这 种 
简单 的 曲线 方法 是 不 可 行 的 ， 因 此 必须 使 用 更 复杂 的 方法 。 通 常 ， 分 析 模型 的 最 关键 指标 是 
残 差 ， 也 就 是 向 量 e=y- 乡 的 各 个 分 量 ， 如 果 这 些 分 量 中 存在 某 种 模式 ， 那么 说 明 这 个 模型 
对 数据 分 布 的 解释 是 失败 的 。 可 以 使 用 各 种 包含 残 差 的 图 形 ， 包 括 残 差 相 对 拟 合 值 的 图 形 、 
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标准 残 差 〈 通 过 把 残 差 除 以 标准 误差 得 到 ) 相对 拟 合 值 的 图 形 ， 以 及 标准 残 差 相对 标准 正 态 
分 位 点 〈quantile) 的 网 形 。( 后 考 就 是 “ 正 态 概率 图 形 ”， 如 果 残 差 近似 地 服从 正 态 分 布 ， 
那么 这 个 图 中 的 点 应 该 大 体位 于 一 条 直线 上 。) 当然 ， 解 释 这 些 诊断 图 需要 实践 经 验 。 

适用 于 所 有 预测 模型 的 一 个 一 般 性 注意 事项 是 : 这 样 的 模型 仅 在 它 所 对 应 的 数据 范围 内 
是 有 效 的 。 把 它 推广 到 它 所 针对 的 数据 范围 外 是 很 危险 的 。 图 11-5 显示 的 简单 例子 说 明了 
这 一 点 。 这 幅 图 所 画 的 是 纸张 的 抗 拉 伸 强度 相对 于 纸浆 中 硬木 含量 的 散 点 图 。 如 果 假 定 仅 测 
量 了 纸浆 中 硬木 含量 值 在 1 到 9 之 间 的 这 些 样本 ， 那 么 一 条 直线 可 以 很 好 地 拟 合 这 个 数据 子 
集 。 对 于 硬木 含量 在 1 到 9 之 间 的 新 纸张 样本 ， 使 用 这 条 直线 可 以 作出 很 好 的 预测 。 但 是 从 
图 中 非常 清晰 地 看 出 如 果 使 用 这 条 直线 来 预测 硬木 含量 值 大 于 9 的 纸张 的 抗 拉 伸 强度 ， 那 么 
得 到 的 结果 肯定 是 错误 的 ， 也 就 是 说 这 个 模型 仅 在 它 所 对 应 的 数据 范围 内 是 可 信赖 的 。 在 第 
3 章 中 我 们 介绍 了 另 一 个 这 样 的 例子 ， 其 中 显示 了 每 年 流通 的 信用 卡 数量 。 一 条 直线 可 以 很 
好 地 拟 合 1985 年 到 1990 年 的 情况 一 一 但 是 如 果 基 于 这 个 模型 对 这 些 年 之 外 的 情况 作出 预测 ， 
那么 得 到 的 结果 肯定 会 有 问题 。 
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图 11-5 纸张 的 抗 拉 强 度 相对 纸浆 中 硬木 含量 的 散 点 图 


这 些 例子 的 情况 非常 清晰 一 一 它们 仅 包含 几 个 数据 点 和 单一 的 预报 变量 。 但 在 涉及 大 
量 数据 和 很 多 变量 的 数据 挖掘 应 用 中 ， 情 况 可 能 就 没有 这 么 清晰 了 ， 所 以 在 作出 预测 时 需 
要 谨慎。 


11.3 ”推广 的 线性 模型 


11.2 节 中 讨论 了 线性 模型 ， 在 线性 模型 中 响应 变量 被 分 解 成 两 个 部 分 ， 预 报 变 量 的 加 权 
求 和 以 及 随机 分 量 : YQ) = Lax) + e (i), 出 于 推理 的 目的 我 们 还 假定 e(i) 独 立 并 服从 N (0, 0°) 
分 布 。 我 们 可 以 用 另 一 种 方式 对 此 进行 描述 一 一 把 这 个 模型 分 成 以 下 三 部 分 来 描述 ， 以 便 对 
其 进行 推广 。 

i) Zn 是 服从 NUD, 中 的 独立 随机 变量 。 
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Gi) 参数 是 通过 求 和 vd) = Lap (i) 以 线性 方式 进入 模型 的 。 

ii) vO Mu QAI vÀ) = 有 人 GD 联系 起 来 的 。 

这 样 便 立 刻 出 现 了 两 种 推广 形式 ， 而 且 保 留 了 线性 组 合 参数 的 优势 。 第 一 ， 我 们 可 以 
放宽 第 人) 条 中 随机 变量 服从 正 态 分 布 的 要 求 。 第 二 ， 我 们 可 以 推广 第 (iiD) 条 中 的 联系 表达 
式 ， 以 使 用 其 他 的 连接 函数 o(u (D) = v(i) 把 分 布 的 参数 和 线性 项 ox (i) 联系 起 来 。 这 些 
扩展 后 的 模型 被 称 为 推广 的 线性 模型 。 它 是 二 十 年 来 数据 分 析 方 面 最 重要 的 成 果 之 一 ， 后 
面 将 看 到 ， 还 可 以 把 这 个 模型 看 作 前 馈 神经 网 络 的 基本 部 分 。 

数据 控 掘 中 使 用 的 最 重要 的 推广 线性 模型 之 一 是 logistic 回归 (logistic regression)。 在 第 
10 章 的 logistic 判别 式 中 我 们 已 经 遇 到 了 这 种 模型 ， 在 这 里 我 们 对 其 进行 更 加 详细 的 讨论 ， 并 
用 它 来 阐述 推广 线性 模型 的 基本 思想 。 在 很 多 情况 下 响应 变量 并 不 是 像 我 们 前 面 假 定 的 那样 
是 连续 的 ， 而 是 一 个 比例 ， 一 个 给 定 样 本 中 的 昆虫 遇 到 杀 虫 剂 后 死亡 的 比例 ， 测 验 中 答对 题 
目的 比例 ， 箱 子 中 腐烂 橘子 的 比例 。 当 这 个 比例 仅 来 自 1 个 对 象 时 便 产 生 了 一 种 特例 ， 即 观 
察 到 的 响应 是 一 值 的 ， 某 个 昆虫 死 了 还 是 没有 ， 某 个 人 答对 了 某 一 道 题目 还 是 没有 ， 某 个 权 
子 是 腐烂 了 还 是 没有 有 。 这 正 是 我 们 第 10 章 中 讨论 的 情况 ， 不 过 这 里 我 们 是 把 它 放 在 了 一 个 更 
通用 的 框架 下 。 现 在 我 们 要 处 理 的 就 是 一 个 二 值 的 响应 变量 ， 也 就 是 取 值 为 0 或 1〈 对 应 于 两 
种 可 能 结果 〉 的 随机 变量 。 我 们 假定 第 i 个 个 体 取 值 为 1 的 概率 是 p(D)， 而 且 不 同 个 体 的 响应 
是 独立 的 ， 这 意味 着 对 第 i 个 个 体 的 响应 服从 伯 努 里 分 布 : 

P(Y@=y())=p(OU-p@)' 7 (11.13) 
其 中 ，y(De {01}. XE logistic 回归 对 上 面 第 〈i) 条 的 推广 : 伯 努 里 分 布 代 替 了 正 态 分 布 。 

我 们 的 目标 是 归纳 出 一 个 模型 , 它 可 以 预测 变量 为 x 的 对 象 取 值 为 1 的 概率 。 也 就 是 说 ， 
我 们 需要 为 响应 的 均值 建立 一 个 模型 ， 即 概率 p(y=1lx)。 我 们 可 以 使 用 线性 模型 一 一 对 预报 
变量 加 权 求 和 。 然 而 这 不 是 最 理想 的 ， 最 明显 的 原因 是 ， 线 性 模型 可 以 取 小 于 0 或 大 于 1 的 
值 (如果 x 值 足够 极端 )。 这 暗示 我 们 需要 修改 模型 以 引入 非 线 性 的 特征 。 我 们 通 对 这 个 概 
率 进行 非 线 性 转换 ， 以 便 可 以 用 线性 组 合 对 其 建 模 来 实现 这 个 目的 。 也 就 是 我 们 在 第 ii) 条 
中 使 用 非 线 性 的 连接 函数 。 一 种 合适 的 函数 〈 并 不 是 唯一 可 用 的 方案 ) 是 logistic 连接 函数 (或 
者 称 为 分 对 数 〈logit) 连接 函数 ): 

_PO=1 (11.14) 


(p(y =113))= l8 y= 


其 中 g(p(y=1Ix) 被 模拟 为 axj。 由 于 p 是 在 0 到 1 间 变 化 的 ， 所 以 log(p/1-p) 显 然 是 在 -ew 和 
+eo 间 变化 的 ， 刚 好 符合 gp) = Zax(D) 的 潜在 范围 。logistic 连接 函数 相对 于 其 他 候选 方案 的 
优点 是 易于 解释 。 举 例 来 说 : 


o pect) POT RARE LORIE Codd), Hilog POST 是 


对 数 赔 率 〈log ne 


e 如 果 给 定 一 个 新 的 预报 变量 的 向 量 x = (Oy, …, ) ， 可 以 根据 JogT PO =O 推出 


观察 到 1 的 概率 。 把 第 ) 个 预报 变量 改变 一 个 单位 对 这 一 概率 的 影响 就 是 %。 因 此 这 
个 系数 反应 了 对 数 赔 率 的 差异 一 一 也 就 等 价 于 从 这 两 个 值 计算 出 的 对 数 赔 率 。 根 据 
这 一 点 容易 看 出 e% 是 当 第 j 个 变量 改变 一 个 单位 时 赔 率 变化 的 因子 〈 参 见 11.2 节 关 
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于 多 重 回归 情况 下 变量 单位 变化 的 影响 的 讨论 )。 


例 11.2 1986 年 1 月 29 日 挑战 者 号 航天 飞机 在 升 空 两 分 钟 后 爆炸 ， 舱 内 人 员 全 部 
死亡 。 这 个 航天 飞机 的 两 个 火 往 推进 器 是 由 多 片 拼接 构成 的 ， 每 三 片 的 衔接 处 被 一 个 橡 
胶 O 形 环 密封 ， 一 共有 六 个 环 ， 人 们 知道 这 些 O 形 环 对 温度 是 敏感 的 。 在 以 前 的 飞行 
中 曾经 有 过 O 形 环 损坏 的 记录 ， 而 且 有 当天 的 温度 数据 。 以 往 的 最 低温 度 是 华氏 .53 MR. 
在 挑战 者 号 航行 的 这 一 天 温度 是 华氏 31 度 ， 所 以 对 这 一 天 是 否 该 继续 飞行 有 很 多 争论 。 
一 种 观点 是 建立 在 对 至 少 导 致 一 个 O 形 环 损坏 的 以 前 七 次 飞行 的 分 析 基 础 之 上 的 。 预 测 
温度 导致 O 形 环 损坏 概率 的 logistic 回归 分 析 得 到 的 结果 是 斜率 为 0.0014， 标 准 误差 是 
0.0498. 由 此 预测 出 在 华氏 , 31 Æ O 形 环 损坏 概率 的 分 对 数 是 1.3466， 得 到 的 预测 概率 
是 0.206。 这 个 模型 中 的 斜率 是 正 的 ， 这 表明 O 形 环 在 低温 下 损坏 的 情况 即便 有 概率 也 , 
是 很 低 的 。 而 且 ， 这 个 斜率 和 0 的 差异 并 不 很 显著 ， 所 以 没什么 证 据 可 以 说 明 损 坏 的 概 
率 和 温度 有 关系 。 

这 一 分 析 是 很 不 完善 的 。 首 先 ， 华 氏 31 度 远 远 低 于 华氏 53 度 ， 所 以 是 在 模型 
所 对 应 的 数据 范围 外 使 用 模型 一 我们 在 前 面 曾 警 告 的 情况 。 第 二 ， 在 没有 导致 O 
形 环 损坏 的 16 次 飞行 中 存在 很 多 有 价值 的 信息 。 对 图 11-6a 和 图 11-6b 进行 比较 ， 
立刻 可 以 明显 的 看 到 这 一 点 ， 图 11-6a 显示 了 上 面 提 到 的 7 次 飞行 中 O 形 环 损坏 的 
数量 ( 纵 轴 ) 相对 温度 〈 横 轴 ) 的 散 点 图 ， 图 11-6b 显示 了 所 有 23 次 飞行 的 情况 。 
这 16 次 飞行 时 的 温度 都 比较 高 。 拟 合 图 11-6b 中 数据 的 logistic 模型 估计 出 的 斜率 
是 -0.1156， 标 准 误差 是 -2.46 (估计 的 截 距 是 5.08， 标 准 误差 是 3.05 )。 据 此 得 出 华 
K 31 度 时 的 预测 概率 是 0.817。 这 是 一 个 完全 不 同 的 结论 ， 如 果 在 飞行 前 已 经 研究 
了 所 有 的 数据 那么 便 可 以 预先 推出 这 个 结论 。 
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a) 飞行 前 分 析 的 数据 b) 完整 的 数据 


图 11-6 ”0 形 环 损坏 数量 对 飞行 当天 温度 的 散 点 图 


因此 推广 的 线性 模型 有 具有 三 个 主要 的 特征 : 
@Y@ G =1,，…,n) 是 独立 的 随机 变量 ， 服从 相同 的 指数 族 分 布 〈 参 见 下 文 )。 
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Gi) 预报 变量 是 以 vD=2ax(D) 的 形式 组 合 的 ， 称 为 线性 预报 量 〈linear predictor), HA 
as 是 对 Qs 的 估计 。 

(iii) 给 定 的 预报 向 量 的 均值 wWD 和 (ii) 中 的 线性 组 合 是 通过 连接 函数 g=) = Lax) 
联系 起 来 的 。 

指数 族 分 布 是 很 重要 的 一 族 分 布 ， 包 括 正 态 、 泊 松 、 伯 努 里 和 二 项 分 布 。 可 以 用 一 个 通 
用 的 形式 来 表示 这 一 族 分 布 : 

y(6)—b(@) 
fly; 0, P= et OHO) (11.15) 

WEOE CAN, BAO 被 称 为 自然 (natural) 参数 或 正规 (canonical) 参数 。 当 a(9)= ¢ 
NM CRS TEL PRIX), o RIAD (dispersion) 参数 或 范围 〈scale) 参数 。 简 单 的 代 
数 变换 便 可 以 得 出 该 分 布 的 均值 为 5()， 方 差 为 a()b”(0)。 注 意 方 差 和 均值 是 通过 bot 
联系 的 ， 而 且 有 时 把 这 (表示 为 VC 的 形式 ) 称 为 方差 函数 。 在 上 面 的 第 (i) AA Gii) 
条 模型 描述 中 对 连接 函数 并 没有 任何 限制 。 然 而 (这 也 是 选择 指数 族 分 布 的 原因 )， 如 果 连 
接 函 数 把 所 选 分 布 的 正规 参数 表示 为 线性 和 的 形式 ， 那 么 会 更 加 简单 。 对 于 多 重 回 归 ， 连 接 
函数 便 是 恒等式 ， 对 于 logistic 回归 ， 它 便 是 前 面 给 出 的 logistic BM. Mawes CBD 
条 中 的 分 布 是 泊 松 分 布 )， 连 接 函 数 就 是 对 数 连接 函数 gu) = logu). 

根据 推广 的 线性 模型 进行 预测 需要 把 关系 eu) = ZazxfD 反 过 来 。 在 最 小 二 乘 估计 算法 
中 ， 这 是 非常 简单 直接 的 ， 实 质 上 只 要 对 矩阵 求 逆 便 可 以 了 。 然 而 ， 对 于 推广 的 线 型 模型 ， 
事情 要 更 复杂 一 些 ， 非 线性 意味 着 必须 采用 和 迭代 方案 。 在 这 里 我 们 不 准备 介绍 其 详细 数学 过 
程 ， 不 过 不 难 证 明 通 过 解 以 下 方程 可 以 得 到 最 大 似 然 解 ， 


A a; (OW (uG))g'(H@) 


其 中 a Ou OTH Ki i 是 为 了 说 明 对 于 不 同 的 数据 点 这 些 量 是 不 同 的 。 应 用 标准 的 
Newton-Raphson 方法 〈 参 见 第 8 章 ) 可 以 得 出 迭代 方程 : 


ao=ac-0- Mou, (11.17) 


其 中 ae 代表 第 s KARBA, a) U1 是 对 数 似 然 的 一 阶 导数 向 量 ， 是 在 ae 点 
WAR, Mo 是 对 数 似 然 的 二 阶 导数 矩阵 ， 也 是 在 ae "点 计算 的 。 

另 一 种 可 选 的 方法 是 “评分 ”法 〈 这 是 一 个 传统 的 名 字 ， 请 不 要 与 我 们 在 “评分 函数 ” 
中 所 使 用 的 评分 一 词 相 混淆 ， 尽 管 它们 的 意思 是 相似 的 )， 它 用 二 阶 导 数 甜 阵 代替 My. FT 
以 把 这 种 方法 的 和 迭代 步骤 表示 为 一 种 类 似 于 标准 最 小 二 乘 矩 阵 解 〈11.5) 的 加 权 扩 展 版 本 
(11.12) 的 形式 : 








j=1,…,p (11.16) 


CX’ WesX) a =X! Wenten (11.18) 
其 中 W ,是 对 角 矩 阵 ， 第 ii NARAT a ORM KUOM arY O): Zen 是 一 个 向 量 ， 
第 i ERAIK aO- BEE ae 计算 的 。 因 为 该 式 与 11.12 很 相似 ， 
所 以 这 种 方法 被 称 为 迭代 加 权 最 小 二 乘法 (iteratively weighted least squares)。 我 们 还 需要 一 
种 尺度 来 衡量 推广 的 线性 模型 的 拟 合 度 ， 这 便 是 模型 的 偏离 度 〈deviance )。 实际 上 平方 和 是 
应 用 于 线性 模型 的 偏离 度 的 特例 。 偏 离 度 被 定义 为 D(M)=-2( log LM; Y) -log L(M*; Y), X 
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质 上 就 是 模型 M 的 对 数 似 然 和 我 们 准备 考虑 的 最 大 模型 M* 的 对 数 似 然 的 差 。 可 以 把 偏离 度 
分 解 为 平方 和 的 形式 以 探索 各 类 模型 。 


例 11.3 在 一 项 关于 游泳 者 耳 部 感染 的 研究 中 ，287 位 游泳 者 回答 了 以 下 这 些 
问题 : 是 否 经 常 在 海中 游泳 ;更 喜欢 有 沙滩 还 是 没有 沙滩 的 游泳 环境 ; 年 龄 ; 性 别 ; 
给 定时 期 内 已 经 发 生 耳 部 感染 的 次 数 。 其 中 最 后 一 个 变量 是 响应 变量 ， 我 们 的 目标 
是 寻找 一 个 模型 ， 它 可 以 根据 其 他 变量 预测 出 耳 部 感染 的 次 数 。 显 然 ， 标 准 的 线性 
回归 是 不 适用 的 : 响应 变量 是 离散 的 ， 而 且 作 为 一 种 计数 ， 不 太 可 能 服从 正 态 分 布 。 
类 似 的 ， 它 也 不 是 一 种 比例 ， 不 在 0 和 1 之 间 ， 所 以 利用 logistic 回归 来 建 模 也 是 
不 合适 的 。 但是， 把 这 个 响应 变量 假定 为 服从 泊 松 分 布 (参数 由 预报 变量 决定 ) 却 
是 合理 的 。 因 此 可 以 用 响应 变量 服从 泊 松 分 布 、 对 数 函 数 作 和 连接 函数 的 推广 线性 模 
型 来 根据 其 他 变量 预测 耳 部 感染 的 次 数 ， 这 便 得 到 了 表 11-3 所 示 的 偏离 度 分 析 表 . 

为 了 检验 零 假 设 (响应 变量 和 预报 变量 之 间 没 有 预测 关系 )， 我 们 把 回归 偏离 
度 值 (1.67， 表 格 中 第 二 列 第 一 行 ) 与 自由 度 为 4 (表格 的 第 一 行 第 一 列 ) 的 卡 方 
分 布 进行 比较 。 这 样 得 到 的 p 值 是 0.7962。 这 个 值 绝 不 算 小 了 ， 表 明 没 什么 证 据说 
明 响 应 变量 和 预报 变量 是 有 关 的 。 可 见 ， 并 不 是 所 有 的 数据 都 一 定 能 产生 可 以 作出 
精确 预测 的 模型 。 


表 11-3 偏离 度 分 析 表 


自 由 度 i 离 度 平均 偏离 度 偏 离 率 
回归 4 1.67 0.4166 0.42 
残 差 282 47.11 0.1671 
汇总 286 48.78 0.1706 
变化 -4 -1.67 0.4166 0.42 


在 结束 这 一 小 节 前 ， 有 必要 说 明 一 下 公式 11.16 的 属性 。 尽 管 它们 是 在 假定 随机 变量 服 
从 指数 族 分 布 的 前 提 下 推导 出 的 ， 但 是 分 析 表 明 这 些 估 计 公式 仅 使 用 了 均值 i (i)、 方 差 
avu (外 以 及 连接 函数 和 数据 。 和 分 布 的 其 他 特征 并 没有 关系 。 这 意味 着 即使 我 们 不 准备 
做 严格 的 分 布 假定 ， 我 们 也 可 以 估计 线性 预报 量 vi = Zax GO 中 的 参数 。 因 为 在 这 种 方法 中 
没有 明确 表达 出 完全 的 似 然 ， 所 以 被 称 为 准 似 然 估计 (quasilikelihood estimation)。 当 然 这 种 
方法 也 需要 迭代 。 


11.4 人工 神经 网 络 


人 工 神经 网 络 CANN) 属于 高 度 参数 化 的 统计 模型 这 一 大 类 〔 在 后 面 的 几 节 中 将 简略 
描述 这 一 类 中 的 其 他 模型 ) 中 的 一 种 ， 近 年 来 它 受到 了 相当 大 的 重视 。 在 这 里 我 们 仅 讨论 前 
馈 神 经 网 络 (feed-forward neural network)， 也 就 是 多 层 感 知 器 〈multilayer perceptron) (W, 
第 5 章 )。 在 一 节 的 篇 幅 内 ， 我 们 或 许 仅仅 能 揭 开 这 一 主题 的 表层 ， 为 此 我 们 在 后 面 给 出 了 
一 些 合适 的 补充 读物 。ANN 的 高 度 参数 化 特征 使 它 特别 灵活 ， 以 至 于 它 可 以 精确 的 模拟 出 
函数 中 非常 小 的 不 规则 性 。 另 一 方面 ， 正 如 我 们 前 面 所 指出 的 ， 这 样 好 的 灵活 性 意味 着 非常 
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严重 的 过 度 拟 合 风险 。 事 实 上 ， 早 期 的 (上 个 世纪 80 年 代 ) 研究 就 是 因为 神经 网 络 对 训练 
数据 的 过 度 拟 合 而 受阻 。 近 年 来 ， 人 们 开发 出 了 克服 这 一 问题 的 策略 ， 使 ANN 成 为 一 种 非 
常 强大 的 预测 模型 。 

为 了 理解 ANN， 不 妨 先 回 忆 一 下 上 一 节 介 绍 的 推广 的 线性 模型 ， 推 广 的 线性 模型 先 对 
预报 变量 进行 线性 组 合 ， 然 后 对 组 合 的 结果 作 非 线性 变换 。 前 馈 ANN 也 是 以 此 作为 基本 元 
RW. RE, ANN 不 是 仅仅 使 用 一 个 这 样 的 元 素 ， 而 是 使 用 许多 这 种 要 素 构成 的 多 个 层 。 
一 个 层 的 输出 一 一 每 个 基本 元 素 的 线性 组 合 的 转换 结果 一 一 又 作为 下 一 层 的 输入 。 在 下 一 层 
中 ， 又 以 同样 的 方式 来 组 合 输入 一 一 对 每 个 元 素 进行 加 权 汇总 ， 然 后 再 作 非 线性 转换 。 从 数 
学 角度 来 看 ， 对 于 在 输入 变量 x 和 输出 变量 y 之 间 仅 有 一 个 转换 层 〈 一 个 隐藏 层 ) 的 网 络 来 
说 ， 我 们 有 


Ena] BoP (11.19) 
k j 


其 中 w 是 线性 组 合 的 权 ， 是 非 线 性 变换 。 这 个 变换 的 非 线 性 性 是 至 关 重要 的 ， 因 为 不 然 的 
话 ， 这 个 模型 就 变 为 线性 组 合 的 线性 组 合 一 一 最 终 还 是 一 种 线性 组 合 。 之 所 以 叫 网 络 是 由 这 
种 模型 结构 的 图 形 表示 得 来 的 ， 在 图 形 表示 中 ， 预 报 变量 和 每 个 加 权 和 是 节点 ， 用 边 把 和 式 
中 的 各 个 项 连接 到 节点 。 

ANN 可 以 使 用 的 层 数 是 没有 限制 的 ， 不 过 可 以 证 明 一 个 隐藏 层 〈 层 中 具有 足够 的 节点 ) 
足以 模拟 任何 连续 的 函数 。 当 然 ， 这 一 结论 的 实用 性 依赖 于 现 有 的 数据 ， 出 于 其 他 目的 〈 比 
如 可 解释 性 ) 使 用 多 个 隐藏 层 可 能 更 加 方便 。 也 有 很 多 推广 的 形式 ， 在 一 种 推广 形式 中 可 以 
跨越 屋 ， 一 个 节点 的 输入 不 仅 来 自 于 它 紧 邻 的 前 一 层 ， 而 且 也 可 以 来 自前 面 的 其 他 层 。 

ANN 的 最 初 形 式 使 用 阐 值 logistic 单元 作为 非 线 性 变换 如果 输入 的 加 权 和 小 于 某 个 阐 
值 那么 输出 为 0， 不 然 为 1。 然 而 ， 为 这 些 函 数 采 用 可 微 的 形式 具有 数学 上 的 优势 。 在 应 用 
中 ， 两 种 最 常见 的 形式 是 对 加 权 和 进行 logistic 变换 f(x) = eY (1+ AEX R f(x) = tanh 
(x) 变换 。 

在 上 一 节 中 看 到 ， 当 从 简单 的 线性 模型 转 到 推广 的 线性 模型 时 ， 参 数 估计 变 得 更 加 复杂 。 
当 从 推广 的 线性 模型 转 到 ANN 时 复杂 度 又 进一步 增加 了 。 对 于 模型 中 的 参数 数量 〈 线 性 组 
合 中 的 权 ) 和 变换 的 非 线性 性 来 说 ， 这 是 很 正常 的 。 不 过 ， 这 种 复杂 性 限制 了 ANN 在 涉及 
庞大 数据 集 的 数据 挖掘 问题 中 的 应 用 。( 但 是 缓慢 的 估计 和 收敛 速 度 并 非 总 是 坏事 。 有 很 多 
业内 传闻 讲 AN 中 的 严重 过 度 拟 合 问题 神奇 地 消失 了 ， 这 就 是 因为 估计 过 程 被 提早 终止 
J.) 人 们 已 经 提出 了 很 多 种 不 同 的 估计 算法 。 一 种 流行 的 方法 是 最 小 化 由 输出 值 “ 目 标 值 ) 
和 预测 值 之 间 的 偏差 平方 和 构成 的 评分 函数 ， 做 法 是 使 该 评分 函数 相对 权 参 数 最 陡峭 下 降 。 
可 以 把 这 一 过 程 表示 为 一 系列 步骤 ， 逐 步 更 新 各 层 的 权 ， 从 输出 节点 反 向 考虑 输入 节点 。 由 
于 这 个 原因 ， 这 种 方法 被 称 反 向 传播 〈back-propagation )。 也 可 以 使 用 其 他 的 标准 ， 当 了 仅 
取 两 个 值 时 (这 时 的 问题 实际 上 就 是 有 指导 的 分 类 ， 和 第 10 章 中 所 讨论 的 相同 )， 一 种 更 自 
然 的 评分 函数 是 以 用 于 伯 努 里 数据 的 对 数 似 然 为 基础 的 ; 


oo SD oe 1790) 
> 1 -0-yil (11.20) 
区 eSa d- yi) log a- | 
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事实 上， 对 于 数据 集合 大 小 正常 的 实践 应 用 来 说 ， 不 同 评分 标准 的 效果 似乎 没什么 差 
异 。 近 年 来 对 人 工 神经 网 络 进行 了 大 量 的 研究 ， 研 究 者 来 自 不 同 的 领域 ， 这 导致 了 很 多 已 
经 非常 著名 的 概念 和 现象 又 在 其 他 领域 中 被 重复 “发 现 ”， 同 时 也 引入 了 很 多 不 必要 的 新 
术语 。 

不 过 ， 对 ANN 的 研究 也 开发 出 了 一 些 新 的 通用 模型 形式 ， 它 们 在 本 节 中 并 未 讨论 。 例 
如 ， 径 向 基 函 数 (radial basis function) 网 络 用 径 向 基 函 数 代 替 了 前 馈 网 络 中 典型 的 logistic 
非 线性 变换 函数 。 一 种 做 法 是 在 x 空间 中 使 用 一 系列 具有 指定 宽度 的 p 维 高 斯 胞 (bump)。 
输出 被 近似 为 这 些 胞 函数 的 线性 加 权 组 合 。 模 型 的 训练 过 程 包括 估计 核 的 位 置 、 宽 度 和 核 的 
权 ， 使 用 的 方式 类 似 于 第 9 章 中 所 描述 的 训练 混合 模型 。 


11.5 ”其 他 高 度 参数 化 的 模型 


神经 网 络 的 显著 特征 是 它 提供 了 一 种 非常 灵活 的 模型 来 近似 各 种 函数 。 它 备 受 媒体 的 关 
注 ， 部 分 是 因为 这 种 强大 性 和 灵活 性 ， 但 或 许 还 因为 其 名 字 所 蕴含 的 吸引 力 。 然 而 ， 它 并 非 
是 唯一 一 种 具 于 高 度 灵活 性 的 模型 。 目 前 已 经 开发 出 了 一 些 在 某 些 情况 下 近似 能 力 和 神经 网 
络 等 价 的 其 他 模型 ， 其 中 一 些 还 具有 更 易于 解释 和 估计 的 优点 。 在 这 一 节 我 们 简要 的 讨论 这 
当中 比较 重要 的 两 种 模型 。 其 他 的 会 在 11.5.2 节 中 提 和 到。 


11.5.1 ”推广 的 相 加 模型 


我 们 已 经 讨论 了 如 何 把 线性 模型 的 思想 扩展 到 推广 的 线性 模型 中 。 然 而 ， 推 广 的 相 加 模 
Æ (generalized additive model) 对 线性 模型 又 作 了 进一步 的 扩展 。 它 们 用 预报 变量 的 转换 版 
本 的 加 权 和 代替 直接 对 预报 变量 加 权 求 和 。 为 了 实现 更 大 的 灵活 性 ， 使 用 了 非 参数 方法 来 估 
计 预 报 变量 和 响应 变量 间 的 关系 ， 例 如 使 用 核 函 数 或 样 条 平滑 方法 (参见 第 6 章 )， 这 样 推 
广 的 线性 模型 形式 gud) =Lax{)MART gui)=2Zofx(D))。 这 里 等 号 右 侧 的 项 有 时 被 称 
为 相 加 预报 量 〈additive predictor)。 这 种 形式 的 推广 相 加 模型 保留 了 线性 模型 和 推广 的 线性 
模型 的 优点 。 尤 其 是 g 如 何 随 某 个 预报 变量 变化 不 受 任何 其 他 变量 变化 的 影响 ， 而 且 解 释 起 
来 更 加 容易 。 通 过 在 每 个 f 分 量 中 包含 多 个 预报 变量 可 以 很 容易 的 进一步 推广 这 个 模型 ， 但 
是 这 是 以 牺牲 简单 的 相 加 解释 为 代价 的 。 相 加 的 形式 还 意味 着 我 们 可 以 分 别 分 析 每 个 平滑 后 
的 预报 变量 ， 来 观察 它 拟 合 数据 的 好 坏 。 

当 g 是 恒 等 函 数 时 ， 可 以 使 用 反 向 拟 合 《backfitting〉 算 法 来 寻找 近似 平滑 函数 。 如 果 
相 加 模型 y @ = Lo,faj@) +e (GD 是 正确 的 ， 那 么 
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jtk 
这 样 便 得 到 了 一 种 迭代 算法 ， 在 该 算法 中 ， 每 一 步 平滑 一 个 预报 变量 的 “部 分 残 差 ”y= 
E ,kxojfiG)， 直 到 这 个 平滑 函数 不 再 变化 。 当 然 ， 具体 的 细节 还 依赖 于 选取 平滑 函数 的 方 
法 : 使 用 核 、 样 条 ， 还 是 其 他 。 

为 了 把 这 种 相 加 的 形式 扩展 到 推广 的 相 加 模型 ， 我 们 使 用 和 前 面 把 线性 模型 扩展 到 推广 
的 线性 模型 相同 的 方法 。 我 们 已 经 简要 描述 了 拟 合 推广 的 线性 模型 的 迭代 加 权 最 小 二 乘 算 
法 。 我 们 曾经 说 明 这 实质 上 是 对 调整 过 的 响应 变量 的 加 权 最 小 二 乘 解 ( 由 之 jx i)a; +G- 
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种 拟 合 加 权 的 相 加 模型 的 算法 。 


例 11.4 在 某 些 外 科 手 术 中 ， 要 使 用 药物 把 血压 降 得 非常 低 。 一 旦 手术 结束 
了 ， 停 止 用 药 ， 并 希望 血压 尽快 地 恢复 到 正常 水 平 。 本 例 中 的 数据 描述 了 停止 用 药 
后 心脏 收缩 压 恢复 到 100 毫米 尔 柱 的 速度 (分钟 ) 这 里 有 两 个 预报 变量 :特定 药 
物 的 使 用 剂量 的 对 数 和 患者 用 药 期 间 的 平均 血压 。 我 们 使 用 推广 的 相 加 模型 来 拟 合 
这 些 数据 ， 并 利用 样 条 ( 事实 上 是 三 次 B 样 条 (cubic B-splines )) 来 实现 平滑 。 图 
11-7 显示 了 转换 后 的 剂量 对 数 (Log(dose) ) 相对 于 观察 到 剂量 对 数 Log(dose) 的 曲 
线 : 图 11-8 显示 了 用 药 期 间 转换 后 的 血压 相对 与 观察 值 的 曲线 。( 在 两 条 曲线 中 都 
存在 某 种 明显 的 非 线性 性 一 一 尽管 剂量 对 数 曲线 的 非 线性 看 起 来 仅 是 由 于 一 个 点 造 
成 的 (译注 ， 即 曲线 最 左边 的 一 点 )。 对 新 数据 点 的 预测 就 是 把 从 这 两 个 分 量 分 别 
作出 的 预测 结果 相 加 得 出 的 。 








平滑 的 剂量 对 数 
0 
上 ”一 一 
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2.0 2.5 
剂量 对 数 


图 11-7 剂量 对 数 的 转换 函数 。 这 是 用 于 预测 血压 返回 正常 值 的 时 间 的 模型 中 的 一 部 分 


11.5.2 ”投影 追踪 回归 


可 以 证 明 投 影 追踪 回归 模型 具有 和 神经 网 络 模型 相同 的 能 力 来 估计 任意 函数 ， 但 是 它 的 
使 用 没有 后 者 那样 广泛 。 这 或 许 是 令 人 遗憾 的 ， 因 为 和 神经 网 络 相 比 ， 它 在 参数 估计 方面 更 
有 优势 。 上 一 节 讨 论 的 相 加 模型 本 质 上 是 把 焦点 集中 在 单个 变量 上 《虽然 使 用 了 这 些 变量 的 
转化 版 本 )。 可 以 把 这 种 模型 进行 扩展 ， 从 而 使 每 个 相 加 的 分 量 包含 多 个 变量 ， 但 是 没有 明 
确 的 方法 来 选取 最 佳 的 变量 子 集 。 如 果 现 有 的 变量 数目 非常 庞大 ， 那 么 我 们 也 会 面临 组 合 爆 
炸 的 风险 。 基 本 的 投影 追踪 回归 模型 的 形式 是 : 


Y=%+ > fag X) +E (11.21) 
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图 11-8 用 药 期 间 血压 的 转换 函数 。 这 是 用 于 预测 血压 返回 正常 值 时 间 的 模型 中 的 一 部 分 


这 个 形式 和 神经 网 络 的 形式 非常 接近 一 一 也 是 对 原始 变量 的 线性 组 合 的 变换 (可 以 是 非 
线性 的 》 作 线性 组 合 。 然 而 ， 这 里 并 没有 限制 f 函数 的 具体 形式 〈 神 经 网 络 中 限制 了 函数 的 
形式 )， 通 常 通过 平滑 来 寻找 合适 的 函数 形式 ， 就 像 推 广 的 相 加 模型 中 那样 。 因 此 这 个 模型 
是 神经 网 络 的 推广 。 己 经 使 用 了 各 种 平滑 形式 ， 包 括 样 条 法 、 弗 雷 德 曼 “超级 平滑 器 ”( 在 
需要 平滑 的 点 作 一 个 局 部 的 线性 拟 合 ) 以 及 多 项 式 函 数 。 之 所 以 把 这 种 模型 称 为 投影 追踪 
(projection pursuit) 是 因为 可 以 把 这 种 模型 看 作 把 X 投影 到 ok 方向 ， 并 使 这 个 投影 方向 对 
于 某 个 目的 来 说 最 优 。( 在 这 种 情况 下 ， 就 是 使 预测 模型 的 每 个 分 量 最 优 .) 人们 已 经 开发 出 
了 很 多 算法 来 估计 这 种 模型 中 的 参数 。 一 种 方法 是 这 样 的 ， 顺 序 的 加 入 和 的 各 个 分 量 到 某 个 
最 大 值 ， 然 后 再 顺序 的 删除 ， 每 一 次 都 根据 模型 对 数据 的 最 小 二 乘法 拟 合 来 选择 加 入 和 删除 
项 。 对 于 给 定数 量 的 项 ， 使 用 标准 的 迭代 过 程 来 估计 o 向 量 中 的 参数 ， 拟 合 模型 。 从 计算 的 
角度 来 看 这 个 过 程 相当 复杂 ， 所 以 投影 追踪 回归 法 往往 不 适合 于 很 庞大 〈n 很 大 ) 而 且 维 数 
很 高 的 (p 很 大 ) 的 数据 集 。 


1.6 ”补充 读物 


Draper and Smith 《1981》 的 书 是 一 本 深入 讨论 传统 线性 回归 的 经 典 教材 ， 讨 论 这 个 内 容 

的 其 他 教材 还 有 很 多 (不计 其 数 )。Furnival and Wilson (1974) 介绍 了 经 典 的 “跳跃 定 界 (leaps 
and bounds)” 算 法 ， 该 算法 可 以 高 效 的 搜索 回归 模型 中 应 该 包含 的 最 佳 变 量子 集 。 关 于 推广 
线性 模型 的 奠基 性 教材 是 McCullagh and Nelder (1989) 写 出 的 ，Hastie and Tibshirani (1990) 
则 更 全 面 的 讨论 了 推广 的 相 加 模型 。Friedman and Stuetzle (1981) 引入 了 投影 追踪 回归 
(PPR), Diaconis and Shashahani (1984) 给 出 了 其 理论 近似 结果 。Friedman (1991) 引入 
了 一 种 非常 灵活 的 用 于 多 元 回归 的 数据 驱动 模型 ， 被 称 为 MARS 〈 多 元 可 适应 回归 样 条 
(Multivariate Adaptive Regression Splines). Breiman et al. (1984) 介绍 了 树 结构 模型 在 回归 
中 的 应 用 ，Weiss and Indurkhya (1995) 介绍 了 用 于 基于 规则 的 回归 模型 的 有 关 技 术 。 在 分 
类 背景 下 (第 10 章 ) 介绍 的 自 展 技术 也 可 以 应 用 到 回归 中 。 当 然 也 可 以 把 回归 置 于 贝 叶 斯 
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框架 之 下 ， 比 如 Gelman, Carlin, Stern, and Rubin (1995) 有 这 方面 的 论述 。 

局 部 回归 (local regression) 技术 依靠 可 适应 的 局 部 拟 合 来 实现 非 参 数 的 回归 函数 〈 参 
JL Cleveland and Devlin (1988) 以 及 Atkeson, Schall and Moore (1997))， 它 类 似 于 用 于 密度 
估计 的 核 模型 (第 9 章 ) 和 用 于 分 类 的 最 近邻 方法 (第 10 章 )。 不 过 这 种 技术 的 计算 量 非常 
大 ， 而 且 易 于 发 生 估 计 问 题 ， 就 像 高 维 空间 中 的 局 部 核 方法 一 样 。 

介绍 神经 网 络 的 优秀 著作 包括 Bishop (1995), Ripley (1996), Golden (1996)、Ballard 
(1997) 和 Fine (1999)。Ripley 的 教材 尤其 值得 关注 ， 因 为 它 完整 而 且 广泛 的 讨论 了 来 
自 神经 网 络 、 统 计 学 、 机 器 学 习 和 模式 识别 领域 的 许多 技术 而 其 他 大 多 数 教材 往往 只 
中 于 这 些 领 域 中 的 一 两 个 )。MacKay (1992) 和 Neal (1996) 介绍 了 训练 神经 网 络 的 贝 叶 
斯 方法 。 

Hand et al. (1994) 中 给 出 了 计算 机 CPU 数据 集 、 吸 氧 量 数据 集 、 游 泳 者 耳 部 感染 数据 
集 和 外 科 手 术 后 的 血压 数据 。 温 度 和 纬度 数据 来 源 于 Peixoto (1990). Chatterjee, Hancock and 
Simonoff (1995) 文章 中 含有 航天 飞机 数据 的 拷贝 ，Lavine (1991) 讨论 了 该 数据 集 。 








第 12 章 数据 组 织 和 数据 库 


12.1 简介 


数据 挖掘 区 别 于 其 他 数据 分 析 任 务 的 特征 之 一 是 数据 量 。 在 很 多 数据 挖掘 任务 中 《〈 比 如 
网 络 日 志 分 析 )， 数 据 矩 阵 包含 了 上 百 万 行 和 上 和 王 列 ， 这 使 数据 分 析 算 法 的 效率 问题 非常 重 
要 。 运 行 时 间 与 行 数 n 成 指数 衣 数 的 算法 可 能 只 适用 寺 很 小 的 数据 集 。 有 些 操作 的 时 间 复 
REA O (n) 或 0 (nlogn)， 例 如 ， 统 计数 据 频率 ， 和 寻找 离散 变量 或 属性 的 波峰 ， 以 及 对 
数据 排序 。 通 常 这 样 的 操作 对 于 庞大 的 数据 集 也 是 可 行 的 。 然 而 ， 如 果 需 要 多 次 扫描 数据 集 ， 
那么 即使 是 线性 时 间 复 杂 度 的 算法 ， 其 开销 也 是 高 得 惊人 的 。 

除了 数据 集 的 行 数 n 会 影响 算法 的 复杂 度 外 ， 变 量 数 p 也 是 如 此 。 对 于 某 些 应 用 p 值 非 
常 小 《比如 说 小 于 10)， 但 是 在 其 他 一 些 应 用 中 ， 比 如 市 场 指数 分 析 和 文本 文档 分 析 ， 我 们 
可 能 遇 到 具有 105 甚至 10 个 变量 的 数据 集 。 在 这 种 情况 下 ， 我 们 就 不 能 再 使 用 包含 O p 
次 操作 的 方法 ， 比 如 逐 对 衡量 所 有 属性 间 的 关系 。 

不 论 是 什么 数据 分 析 项 目 ， 都 可 以 将 其 分 成 两 个 阶段 。 第 一 个 阶段 是 准备 分 析 算 法 所 需 
的 数据 ， 第 二 阶段 是 运行 分 析 算 法 。 有 人 可 能 认为 第 一 阶段 不 太 重要 ， 但 是 它 却 经 常 成 为 整 
个 项 目的 瓶颈 。 例 如 ， 要 分 析 一 个 数据 集 ， 往 往 有 必要 把 算法 应 用 到 这 个 数据 集 的 不 同 子 集 
上 。 这 意味 着 我 们 必须 能 够 迅速 地 搜索 和 标识 出 每 个 子 集 ， 并 且 把 这 个 子 集 装 入 内 存 。 树 算 
法 有 力 地 证 明了 这 一 点 ， 在 树 算 法 中 ， 数 据 集 被 逐步 地 分 割 成 较 小 的 子 集 ， 在 扩展 树 之 前 必 
须 标识 出 每 个 子 集 。 组 织 数据 (data organization) 的 目的 就 是 找到 一 种 方法 来 存储 数据 ， 以 
使 对 数据 子 群 的 访问 尽 可 能 快 。 即 使 是 所 有 数据 都 可 以 放 入 内 存 ， 组 织 数据 也 是 很 重要 的 。 

除了 为 数据 挖掘 算法 提供 高 效 的 数据 访问 支持 外 ， 组 织 数据 还 在 整个 数据 挖掘 过 程 的 重 
复 和 交互 中 起 着 重要 作用 。 本 章 首先 简要 介绍 现代 计算 机 的 存储 器 层次 ， 然 后 介绍 索引 结构 
一 一 数据 库 系 统 用 其 加 速 查询 的 过 程 。 最 后 讨论 了 关系 数据 库 和 结构 化 查询 语言 ， 以 及 一 些 
用 于 特殊 目的 的 数据 库 系统 。 


12.2 存储 器 层次 





计算 机 的 存储 器 被 划分 成 几 个 层次 ， 访 问 不 同 层 需要 不 同 的 时 间 〈 这 里 访问 时 间 是 指 检 
索 存 储 器 中 一 个 随机 选取 字 节 所 需 的 平均 时 间 )。 事 实 上， 如 果 磁 盘存 储 也 像 高 速 缓存 那 样 
快 ， 那 么 就 不 需要 开发 任何 复杂 的 组 织 数据 方法 了 。 

以 下 是 对 不 同 存储 器 的 一 种 通用 分 类 : 

L 处 理 器 的 寄存 器 。 通 常 有 不 到 100 个 寄存 器 ， 处 理 器 可 以 直接 访问 寄存 器 中 的 数据 ; 
也 就 是 说 ， 访 问 寄存 器 不 存在 延迟 。 

2. 处理 器 或 主板 上 的 高 速 缓存 。 这 是 实现 在 与 处 理 器 相同 的 一 块 芯片 上 或 者 位 于 主板 
上 的 高 速 半导体 存储 器 。 典 型 的 容量 是 16~1000K 字 节 ， 访 问 时 间 大 约 是 20 纳 秒 。 

3， 主 存储 器 。 标 准 的 半导体 存储 器 ， 容 量 从 16 兆 字 节 到 几 个 G， 访 问 时 间 大 约 是 70 A. 


U 
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4， 磁 盘 高 速 缓存 。 介 于 主 存储 器 和 磁盘 之 问 的 半导体 存储 器 。 

5. 磁盘 存储 器 。 容 量 从 1G SILA G 或 上 于 G 的 庞大 磁盘 阵列 。 典 型 的 访问 时 间 是 10 毫秒 。 

6. 磁带 。 磁 带 可 以 存放 几 个 G 的 数据 。 访 问 时 间 有 所 差异 ， 可 能 是 分 钟 级 。 

这 些 存 储 器 之 间 的 访问 时 间 差 异 确实 很 大 : 在 访问 磁盘 所 需 的 10 毫秒 内 可 以 访问 高 速 
缓存 上 百 万 次 了 。 理解 这 一 点 的 另 一 种 方式 是 把 访问 时 间 假 想 成 和 实际 距离 成 正比 。 那 么 ， 
如 果 我 们 把 到 主 存储 器 的 距离 想像 为 1 米 远 〈 仲 手 可 及 的 范围 内 )， 那 么 访问 磁盘 存储 器 的 
距离 比 这 要 远 10; 倍 ， 也 就 是 100 公里 。 

主 存储 器 和 磁盘 的 另 一 个 主要 差异 是 可 以 逐个 访问 主 存储 器 的 每 个 字 节 ， 然 而， 对 于 磁 
盘 来 说 ， 只 要 我 们 访问 一 个 字 节 ， 实 际 上 是 把 包含 这 个 字 节 的 整个 磁盘 页 〈 大 约 是 4 干 字 节 ) 
都 调 入 主 存储 器 。 所 以 如 果 那 一 页 恰好 包含 后 面 要 使 用 的 信息 ， 那 么 它 已 经 在 高 速 的 存储 器 
中 了 。 举 例 来 说 ， 如 果 我 们 要 检索 1000 个 整数 ， 每 个 整数 被 存储 为 4 个 字 节 ， 那 么 需要 访 
问 磁盘 的 次 数 在 1 次 到 1000 次 之 间 ， 取 决 于 这 些 整数 被 存储 在 同一 个 磁盘 页 上 还 是 每 个 整 
数位 于 一 个 磁盘 页 。 

针对 存储 器 层次 的 物理 特征 ， 我 们 总 结 出 了 如 下 经 验 法 则 ; 

o 如 果 可 能 ， 数 据 应 该 存储 在 主 存储 器 中 。 

o 在 主 存储 器 中 ， 一 起 使 用 的 数据 项 应 该 在 逻辑 上 相互 靠近 〈 也 就 是 说 ， 我 们 可 以 快 

速 地 找到 这 个 子 集 的 下 一 个 元 素 )。 
o 在 磁盘 上 ， 应 该 使 一 起 使 用 的 数据 在 物理 上 相互 靠近 也 就 是 尽 可 能 在 同一 个 磁盘 
页 上 )。 

在 实践 中 ， 系 统 使 用 者 通常 很 难 控制 数据 在 高 速 缓存 中 的 存放 细节 ， 以 及 数据 在 磁盘 上 
的 物理 布局 。 正 常情 况 下 ， 系 统 尽 可 能 把 更 多 的 数据 载 入 主 存储 器 ， 并 自己 决定 如 何 把 数据 
对 象 放 到 磁盘 页 上 ， 用 户 可 以 影响 为 访问 数据 子 集 而 创建 的 各 种 辅助 结构 。 下 一 节 将 简要 描 
述 用 以 访问 海量 数据 的 一 些 数据 结构 。 





12.3 ”索引 结构 


组 织 数据 的 首要 目标 是 找到 一 种 方式 以 迅速 定位 到 符合 某 个 给 定 选取 条 件 的 数据 点 。 通 
常 ， 选 取 条 件 是 一 些 针对 单个 属性 的 条 件 的 合 取 〈 并 )， 比 如 “年 龄 乏 40” 并 且 “ 收 入 和 20 
000”。 我 们 首先 考虑 特别 适用 于 仅 有 一 个 合 取 项 的 数据 结构 。 

对 属性 A 的 索引 就 是 这 样 一 种 数据 结构 ， 使 用 它 来 定位 具有 给 定 A 值 的 数据 点 比 直 接 
扫描 整个 数据 集 更 有 效 。 通 常 使 用 B*- 树 或 哈 希 函数 来 建立 索引 。 


12.3.1 B- 树 


搜索 树 (search tree) 可 能 是 最 简单 的 索引 结构 了 。 假 定 我 们 有 一 个 由 数据 向 量 组 成 的 
集合 5={x(1),…，x(m)}， 我 们 的 目标 是 尽 可 能 快 地 找到 序数 型 (ordinal》 属 性 (变量 ) AK 
个 特定 值 的 所 有 数据 点 。 搜 索 树 是 一 种 二 叉 树 结构 ， 每 个 节点 存储 4 的 一 个 特定 值 ， 并 且 每 
个 时 子 有 一 个 指针 指向 $ 的 一 个 元 素 。 此 外 树 的 结构 是 满足 以 下 要 求 的 : 包含 a 值 的 树 节点 
u 的 左 子 树 的 叶子 所 指向 的 所 有 S 元 素 的 A 值 都 小 于 或 等 于 a。 类 似 地 ，u 的 右 子 树 的 叶子 
所 指向 的 所 有 S 元素 的 4 值 都 大 于 a 
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有 了 属性 4 的 二 叉 搜 索 树 便 很 容易 从 S 中 找到 属性 4 等 于 给 定 值 b 的 数据 点 。 我 们 只 
要 从 树 的 根 节点 开始 ， 通 过 把 b 和 节点 上 的 值 相 比较 来 选择 左 子 树 或 右 子 树 。 当 到 达 叶 子 节 
点 了 时， 要 么 找到 了 指向 A =b 的 记录 的 指针 ， 要 么 发 现 没 有 这 样 的 “指针 存在 ”。 

也 很 容易 寻找 到 满足 条 件 b <A < c 的 所 有 指针 ， 即 所 谓 的 “区 间 查 询 ”。 只 要 定位 到 
等 于 b 的 叶子 ( 像 上 面 那样 )， 以 及 等 于 c 的 叶子 ， 那 么 这 两 个 位 置 之 间 的 叶子 指针 所 指向 
的 记录 就 是 要 查询 的 记录 。 

找到 属性 4 等 于 给 定 值 的 记录 所 需 的 时 间 与 树 的 深度 加 上 符合 要 求 的 记录 条 数 成 比例 。 
在 最 坏 的 情况 中 ， 树 的 深度 为 nx( 数 据 集 § 中 的 点 数 )， 但 是 有 办 法 可 以 保证 树 的 深度 为 
O Cogn) (不 过 这 超出 了 本 书 的 范围 )。 在 实践 中 ， 二 又 搜索 树 的 应 用 不 太 多 ， 因 为 下 面 要 
讨论 的 B*- 树 在 访问 磁盘 数据 方面 显然 更 有 优势 。 

B*- 树 的 基本 思想 和 搜索 树 的 思想 是 一 样 的 ， 指向 数据 对 象 的 指针 在 树 的 叶子 节点 上 ， 
内 部 节点 包含 了 属性 4 的 值 表明 如 何 找到 某 个 指针 。 然 而 ， 在 B*- 树 中 ， 对 应 于 某 个 4 值 的 
每 个 内 部 节点 不 再 仅 有 两 个 子女 ， 它 通常 有 上 百 个 子女 和 值 。 

具体 来 说 ， 一 个 数据 集合 的 M E B*- 树 具有 如 下 特征 : 

@ 所 有 的 叶子 在 同一 深度 ; 

@ 每 个 叶子 包含 M/2 到 M 个 关键 字 (key) (HEE IME); 

@ 每 个 内 部 节点 (可 能 要 把 根 节点 除外 ) 及 个 子女 Cl,… ,Cx (其 中 M2 SK SM 

入 -1 Miia, e apu 对 于 所 有 的 i， 所 有 存储 在 C; 子 树叶 子 的 关键 值 都 大 于 ar 
但 不 超过 a; 

搜索 B*- 树 的 方式 和 搜索 二 又 搜索 树 的 方式 一 样 :， 对 于 树 的 每 个 内 部 节点 ， 用 a; 值 来 选 
取 正 确 的 子 树 。 

B*- 树 不 同 于 二 叉 搜 索 树 的 一 个 特征 是 它 的 高 度 保证 为 O(logn)， 因 为 所 有 的 叶子 是 在 同 
一 深度 的 。 实 际 上 ， 树 的 深度 是 以 logw n 为 上 限 的 。 通 常 ，M 值 的 选择 标准 是 使 树 的 每 个 
节点 适合 于 一 个 磁盘 页 。 如 果 M 是 100， 那 么 (M/2)5 超过 3 亿 ， 而 且 我 们 发 现 对 于 大 多 数 现 
H nE (数据 集 的 元 素数 )，B*- 树 至 多 只 有 5 层 。 这 意味 着 用 三 次 磁盘 访问 就 可 以 完成 从 
3 亿 个 数据 点 中 寻找 一 个 数据 点 的 单一 属性 值 搜索 ， 因 为 根 节点 和 树 的 第 二 层 可 以 放 在 主 存 
储 器 中 。 大 多 数 数据 库 管理 系统 使 用 B*- 树 作为 其 索引 结构 之 一 。 


12.3.2 BRASI 


还 是 假定 我 们 有 一 个 数据 集 $S， 并 且 要 寻找 属性 A 等 于 a 值 的 所 有 点 。 如 果 4 的 可 能 值 
合 很 小 ， 那 么 我 们 可 以 这 样 做 ， 对 于 每 个 可 能 值 ， 构 建 一 个 列表 ， 使 其 包含 指向 属性 4 等 

于 该 值 的 所 有 数据 点 的 指针 。 然 后 ， 对 于 给 定 的 查询 “寻找 4 = a 的 点 ” 我 们 只 要 访问 这 
个 列表 来 寻找 a。 

如 果 属 性 A 存在 大 量 的 可 能 值 ， 那 么 这 种 方法 是 不 可 行 的 : 举例 来 说 ， 我 们 不 可 能 为 2 
个 整数 中 的 每 一 个 值 维护 一 张 列表 。 我 们 只 能 对 原始 值 进行 变换 以 缩小 可 能 值 的 范围 。 

更 详细 些 ， 令 Dom(4) 为 A 可 能 值 的 集合 。 哈 希 函 数 《hash function) 就 是 从 Dom(4) 到 
(i, MERA h 其 中 M 是 哈 希 表 + 的 容量 。 对 于 每 个 je (1, , M}， 我们 把 S$ 中 4 
的 值 a 满足 h(a) =j 的 记录 EA rU ESR A = a 的 所 有 数据 点 时 ， 我 们 只 要 计算 
h(a)， 并 到 rth(a)l 中 遍历 数据 指针 的 列表 ， 对 于 列表 中 的 每 一 个 检查 它 的 4 属性 值 是 否 真 的 
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为 a， 或 者 是 否 为 满足 hb) = h(a) 的 男 一 个 值 bp (这 被 称 为 冲突 (collision ) )。 

典型 的 哈 希 函 数 是 a RM, MAKE n (数据 点 数 ) 的 一 个 适当 质数 。 如 果 哈 希 函 数 选 
择 得 当 并 且 哈 希 表 足够 大 ， 那 么 冲突 是 很 少 的 ， 并 且 搜 索 具 有 给 定 4 值 的 点 所 需 时 间 本 质 上 
和 这 些 点 的 数量 成 比例 。 不 过 哈 希 索 引 不 能 直接 支持 区 间 查 询 。 


12.4 ZRI 


像 哈 希 表 和 B*- 树 这 样 的 传统 索引 结构 提高 了 访问 表 中 各 行 的 速度 ， 它 们 是 以 给 定 属性 
或 合成 属性 的 值 为 基础 的 。 然 而 在 某 些 应 用 中 ， 必 须 基 于 几 个 属性 来 表达 选取 条 件 ， 那 么 前 
面 讲 的 索引 结构 就 无 能 为 力 了 。 举 例 来 说 ， 考 虑 地 理 信息 的 情况 。 假 定 我 们 要 寻找 纬度 介 于 
北纬 30 度 和 40 度 ， 经 度 介 于 西 经 60 EA 70 度 ， 人 口 不 低 于 1 000 的 所 有 城市 。 这 样 的 查 
询 被 称 为 给 形 范围 查询 (rectangular range query)。 假 定 城市 数据 表 很 大 ， 包 含有 上 百 万 个 城 
市 名 。 应 该 如 何 求 出 这 个 查询 呢 ? 关于 纬度 属性 的 B*- 树 索引 可 以 找到 满足 纬度 属性 的 城市 ， 
但 十 要 在 这 些 记录 中 找到 满足 经 度 条 件 的 记录 我 们 就 不 得 不 使 用 顺序 扫描 了 。 类 似 地 ， 关 于 
经 度 的 索引 也 起 不 到 多 大 的 作用 。 我 们 所 需要 的 是 可 以 直接 用 于 两 个 属性 的 索引 结构 。 

多 维 索引 (multidimensional indexing) 是 指 根据 多 个 属性 的 条 件 来 搜索 数据 表 记 录 的 技 
术 。 一 种 广 为 应 用 的 方法 是 R*- 树 。 它 的 每 个 节点 对 应 于 潜在 空间 的 一 个 区 域 ， 即 这 个 节点 
代表 了 该 区 域 中 的 各 点 。 对 于 维 数 一 直到 10 左右 的 情况 ， 多 维 索引 结构 都 会 提高 对 庞大 数 
据 库 的 搜索 速度 。 更 高 维 数 (比如 说 100) 数据 集 的 范围 查询 还 是 一 个 在 研究 的 课题 。 


12.5 关系 数据 库 


在 数据 挖 拨 中 我 们 经 常 需要 访问 数据 的 一 个 特定 子 集 并 根据 这 个 子 集 的 某 些 属性 值 来 计 
算 函 数 。 我 们 已 经 讨论 了 一 些 数据 结构 ， 借 助 这 些 结构 我 们 可 以 快速 地 找到 有 关 数 据点 。 但 
关系 数据 库 提 供 了 一 种 统一 机 制 来 快速 访问 数据 的 某 一 部 分 。 

在 数据 库 术 语 中 ， 数 据 模 型 是 指 可 以 用 来 描述 数据 结构 structure) 的 结构 《constroct) 
和 操纵 数据 的 各 种 运算 。( 注 意 这 里 所 使 用 的 模型 (model) 一 词 和 本 书 前 面 章 节 所 讲 的 模型 
完全 不 同 。 在 这 里 ， 它 是 设计 出 的 一 种 强加 到 数据 上 的 结构 ， 而 不 是 发 现 的 已 经 存在 于 数据 
中 的 结构 。 模 型 一 词 出 现 两 种 不 同 的 用 法 是 令 人 遗憾 的 ， 这 是 由 于 统计 学 和 数据 库 理论 两 个 
不 同学 科 都 对 数据 控 据 作出 了 和 贡献。 幸运 的 是 ， 混 淆 的 时 候 很 少 ， 大 多 数 时 候 都 可 以 从 上 下 
文 判断 出 使 用 的 是 两 种 含义 中 的 哪 一 种 。) 关系 数据 模型 是 建立 在 以 表格 的 形式 来 表示 数据 
这 一 思想 之 上 的 。 表 格 的 头 (图 式 (schema)〉 由 表 名 和 列 名 集合 构成 ， 列 名 又 被 称 为 属性 。 
实际 的 表 〔 图 式 的 实例 ) 又 被 称 为 关系 ， 是 一 个 指定 的 行 集 。 属 性 A 所 对 应 的 列 中 的 每 一 个 
表 项 是 来 自 A 定义 域 Dom(4) 中 的 一 个 值 。 注 意 在 定义 属性 时 ， 还 必须 确定 每 个 属性 的 定义 
域 。 属 性 可 以 是 任何 的 数据 类 型 ， 范 畴 型 的 ， 数 字 型 的 ， 等 等 。 表 中 行 和 列 的 顺序 不 是 很 重 
要 。 

我 们 可 以 用 更 正式 的 语言 来 描述 上 面 的 概念 。 一 个 关系 图 式 R 是 一 个 属性 集合 {4A1 ，… ， 
4,}， 其 中 的 每 个 属性 4) 具有 与 之 相关 的 定义 域 Dom(A))。 模式 R 上 的 一 行 是 一 个 映射 t: RO 
UDom(4)， 其 中 (A) € Dom(A). RR 上 的 表 或 关系 是 R 上 的 一 个 行 集 。 关 系数 据 库 模 
ER 是 关系 模式 的 集合 {R，… ， 尺 } (可 能 带 有 对 关系 实例 的 某 些 限制 )， 模 式 R 上 的 关系 
数据 库 了 由 尺 (对 每 一 个 ;= 1, … ,k) 上 的 关系 构成 。 
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例 12.1 考虑 带 有 条 码 机 的 零售 店 出 口 ， 或 者 一 个 记录 每 一 笔 交 易 的 网 络 
站 点 。 对 于 每 一 笔 交 易 ， 又 称 为 一 篮 (basket )， 我 们 可 以 采集 到 这 个 顾客 购买 
了 哪些 商品 以 及 每 件 商品 的 单价 信息 .原则 上 讲 ， 这 些 数据 可 以 表示 为 一 张 表 ， 
每 一 种 商品 对 应 表 中 的 一 个 属性 ， 每 一 笔 交 易 对 应 一 行 。 算 阵 中 1 行 A 属性 的 
表 项 HAh4) 表 示 了 这 个 顾客 购买 了 多 少 件 4. 也 就 是 说 ,每 个 属性 4 的 定义 域 Dom(A) 
是 非 负 整数 的 集合 。 这 种 表 的 一 个 实例 如 图 12-1 所 示 ， 我 们 把 这 个 表 叫 做 


transactions. 


























transactions 
basket-id chips mustard sausage Pepsi [Coca-Cola | Miller | Bud | 
i, 1 | o 0 T 0 0 1 0 
b 2 1 3 5 0 1 0 
h 1 0 1 0 1 0 0 
ty 0 0 2 0 0 6 0 
ts 0 1 1 1 0 0 2 
le 1 1 1 0 0 1 0 
h 4 0 2 4 0 i 0 
te 0 1 1 0 4 0 1 
ly 1 0 0 1 0 0 1 
tio 0 1 2 0 4 1 1 











图 12-1 把 购物 复数 据 表示 为 每 个 属性 对 应 一 种 商品 的 表格 


由 于 商品 可 能 经 常 变化 ， 所 以 把 商品 名 编 入 属性 不 是 一 种 好 的 做 法 。 另 一 种 表 
示 方 法 是 使 用 图 12-2 所 示 的 baskets 表 ， 在 这 个 表格 中 每 种 商品 被 表示 为 一 个 表 项 。 
这 个 表格 有 三 个 属性 ，basket-id ( 篮 标 识 )、produect (商品 ) 和 quantity (数量 )， 
商品 的 定义 域 是 所 有 字符 串 集 合 ， 数 量 的 定义 域 是 非 负 整数 集合 。 由 此 可 以 看 出 把 
给 定数 据 集 表 示 为 关系 数据 库 的 方式 是 不 唯一 的 : transactions 表 和 baskets 表 都 表 
示 了 相同 的 数据 。 




















baskets 

p basket-id | product TT quantity ] 

ti chips 1 

h Miller 1 

h chips 2 

h mustard 1 

h sausage 3 

h Pepsi 5 

h Miller 1 
— 





图 12-2 ”对 购物 篮 数据 的 更 理想 表示 


除了 关于 每 笔 交 易 的 数据 ， 零 售 商 还 要 维护 每 种 商品 价格 的 信息 . 这 可 以 表示 
成 图 12-3 所 示 的 products 表 。 


a 
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products 
product price supplier category 
chips 1.00 ABC food 
Miller 0.55 ABC drink 
mustard 1.25 DEF spices 
sausage 2.00 DEF food 
Pepsi 0.75 ABC drink 
Coke 0.75 DEF drink 





图 12-3 ”表示 商品 价格 的 表格 
商品 数据 对 于 了 解 概 要 情况 来 说 可 能 过 于 详细 了 。 因 此 ， 零 售 商 会 把 不 同 的 商 
品 分 成 一 些 较 大 的 商品 类 目 。 图 12-4 显示 的 就 是 这 样 的 一 个 例子 。 


product-hierarchy 











C Product category ] 
Pepsi i soft drink 
Coke soft drink 
Budweiser beer 
Miller beer 
soft drink drink 
beer drink 








图 12-4 把 商品 层次 表示 成 表格 
这 个 表格 描述 了 一 种 层次 关系 ， 表 示 了 百事 可 乐 和 可 口 可 乐 是 软饮料 ， 软 饮料 
和 啤酒 是 饮料 。 
可 以 通过 仅 列 出 表 名 和 它们 的 属性 来 简要 地 描述 本 例 中 的 表格 模式 : 


baskets (basket-id, product, quantity) 
products (product, price) 
product ~hierarchy (product, category) 


可 见 ， 关 系数 据 模型 是 建立 在 表格 表示 这 一 思想 之 上 的 。 单 元 格 中 的 值 可 以 是 任何 原子 
值 ， 比 如 数字 、 整 数 或 者 字符 串 ， 但 不 允许 用 值 的 集合 或 列表 。 这 就 是 说 ， 如 果 我 们 要 表示 
人 的 信息 ， 那 么 我 们 可 以 表示 他 的 年 龄 和 电话 号 码 ， 但 不 可 以 把 多 个 电话 号 码 存储 在 一 个 属 
性 中 。 如 果 模 型 是 按 这 一 约束 建立 的 ， 那 么 就 说 这 个 模型 符合 第 一 范式 first normal form). 

关系 模型 广泛 的 应 用 在 数据 管理 中 ， 几 乎 所 有 主要 的 数据 库 系 统 都 是 以 这 一 模型 为 基础 
的 。 某 些 系 统 还 提供 了 其 他 功能 ， 比 如 可 以 使 用 面向 对 象 的 数据 建 模 方法 。 

即使 是 在 相当 小 的 组 织 中 ， 关 系数 据 库 也 可 能 有 上 百 个 表格 和 上 于 个 属性 。 所 以 管理 这 
样 的 数据 库 模 式 可 能 是 一 项 很 复杂 的 任务 。 有 时 有 人 提出 对 于 数据 分 析 来 说 ， 把 所 有 的 表格 
合并 成 一 个 大 的 观察 值 矩 阵 〈 或 者 称 为 “大 全 表 universal table)”) 就 足够 了 ， 这 样 在 数据 
挖掘 中 就 不 必 关 心 数据 是 在 数据 库 中 这 一 事实 。 然而 ,对 简单 实例 的 分 析 说 明 这 是 不 可 行 的 : 
统一 表 太 大 以 致 于 操作 它 的 代价 高 得 惊人 。 


例 12.2 考虑 超市 中 商品 的 例子 。 在 现实 环境 中 。 仅 有 一 个 包含 商品 product ) 
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和 价格 (price) 两 个 属性 的 表格 显然 是 不 能 满足 应 用 要 求 的 ， 至 少 还 要 有 一 个 关于 
供应 商 属性 的 表格 , 包含 供应 商 (supplier)、 地 址 ( address ). 电话 号 码 ( phone number ) 
等 。 如 果 我 们 要 把 这 两 张 表格 组 合成 一 张 表 ， 那 么 这 张 表 将 必须 包括 以 下 属性 : 交 
易 标识 、 商 品 、 数 量 、 供 应 商 地 址 、 电 话 号 码 、 商 品 价 格 等 。 此 外 ， 如 果 每 种 商品 
平均 属于 kK 个 不 同 的 产品 组 ， 那么 如 果 要 包含 商品 层次 ( product-hierarchy ) 信息 ， 
表 的 大 小 将 增 大 到 原来 的 到 倍 。 即 使 是 对 于 中 等 大 小 的 数据 库 ， 这 种 组 合 过 程 也 


12.6 ”操纵 表格 


能 够 描述 数据 结构 并 存储 数据 对 于 数据 管理 来 说 还 不 够 ， 我 们 还 必须 能 够 从 表格 中 检索 
数据 。 本 书简 要 地 描述 两 种 操纵 表格 集 〈 也 就 是 关系 数据 库 ) Mina: 本 节 讨 论 关 系 代数 ， 
下 一 节 讨 论 结构 化 查询 语言 (SQL)。 关 系 代数 是 以 集合 理论 表示 为 基础 的 ， 对 于 理论 研究 
特别 方便 ;而 SQL 在 实践 中 应 用 的 非常 广泛 。 

在 这 个 例子 中 ， 我 们 使 用 r、s 等 来 表示 表 ， 用 R、$ 等 表示 这 些 表 的 属性 集 。 

关系 代数 包含 了 一 系列 基本 运算 来 操纵 以 表格 形式 表示 的 数据 ， 而 且 还 可 以 使 用 一 些 
导出 运算 (可 以 表达 为 一 系列 基本 运算 的 运算 )。 这 些 基 本 运算 包括 三 种 集合 运算 : 并 、 
交 和 差 ， 和 用 来 删除 列 的 投影 运算 ， 选 择 行 的 选择 运算 ， 以 及 组 合 两 个 表 的 联接 和 第 卡尔 
积 运算 。 


例 12.3 关系 代数 的 各 种 运算 是 这 样 定义 的 : 

假定 上 和 35 是 属性 集合 尺 上 的 表格 。 

Hr U s={tilter Ates) 

交 rNs={tlter Hite s} 

Æ r\s=({tlrer Fire s} 

投影 oRAE NCR, MA rX = uler) 其 中 IE 是 仅 保留 上 行 中 天 
列 的 值 而 得 到 的 行 。 

选择 如 果 给 定 对 表 PATHE PF, 那么 

odry={te rlt HA F} 


联接 ras = {tulte rues, 对 于 所 有 的 Ae RNS, tAl=ulAl}, HP uie 
1 和 4 拼 在 一 起 而 得 到 的 行 。 


合 运算 

表 是 行 的 集合 ， 而 且 关 系 代数 中 的 所 有 运算 都 是 面向 集合 的 ， 它 们 以 集合 作为 输入 并 和 输 
出 集合 作为 结果 。 因 此 我 们 可 以 用 关系 来 编写 查询 ， 查询 的 结果 和 参数 都 是 关系 。 

传统 的 集合 运算 对 于 操纵 表 也 是 有 价值 的 。 我 们 把 并 、 交 和 差 〈 分 别 表示 为 rUs, rA 
s r\s) 作为 关系 代数 中 的 基本 运算 。 并 运算 把 相同 属性 集 的 两 张 表 合并 起 来 : rUs 的 结果 
包含 x 和 s 中 出 现 的 所 有 行 。 交 运算 rn s 所 产生 的 表 包 含 既 出 现在 + 中 又 出 现在 中 的 行 。 
EA r s 得 到 的 是 出 现在 + 中 但 没有 出 现在 s 中 的 行 。 这 些 运算 都 假定 r+ 和 s 是 相同 属性 
集 上 的 表 。 
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举 个 例子 来 说 ， 假 定 r 是 表示 所 有 软饮料 价格 的 一 张 表 ，s 是 表示 最 高 价格 为 2 美元 的 
所 有 商品 的 表 。 那 么 rUs 就 是 包括 所 有 软饮料 和 最 高 为 2 美元 的 商品 的 表 ，r mn s 就 是 不 超 
过 2 美元 的 所 有 软饮料 的 表 ，r \ s 包含 了 高 于 2 美元 的 所 有 软饮料 。 当 然 可 以 用 并 和 差 运算 
来 定义 交 运 算 : rAs=(rUs\\Qr\s) U CN\ 门 )。 

运算 时 必须 保证 得 到 的 集合 是 一 张 表 ， 它 具有 一 定 的 图 式 (schema)。 所 以 rUs, rN s 
和 rNs 定义 的 前 提 都 是 + 和 s 是 同一 模式 上 的 表 一 一 也 就 是 在 同一 属性 集 上 。 

例如 ， 可 以 使 用 交 查 询 来 建立 规则 集 。( 第 13 章 将 讨论 用 来 学 习 规 则 的 算法 。) 假定 我 
们 已 经 求 出 了 满足 条 件 F 的 观察 值 的 表 +， 而且 类 似 地 ， 另 一 张 表 s 对 应 于 满足 条 件 G 的 观 
察 值 。 交 运算 A s 对 应 于 满足 这 两 个 条 件 的 那些 观察 值 ， 交 集 的 势 (cardinality) 反映 了 条 
件 间 的 重 得 程度 。 如 果 > 和 s 是 从 观察 值 的 同一 张 基本 表 中 求 出 的 ， 那 么 我 们 可 以 在 这 个 查 
询 中 使 用 条 件 F 和 G 作为 选择 条 件 。 交 查询 的 最 自然 应 用 是 当 我 们 需要 检查 同一 个 值 是 否 出 
现在 两 张 表 中 的 时 候 。 


投影 

投影 运算 的 目的 是 剪裁 一 张 表 使 其 仅 包含 我 们 感 兴趣 的 特定 列 。 给 定 一 个 具有 属性 集 R 
Wer HAX c R， 那 么 x 在 X 上 的 投影 是 通过 从 表格 中 删除 XX 之 外 的 所 有 列 而 得 到 的 。 
对 表格 投影 的 副作用 是 表 的 行 数 和 列 数 会 降低 。 如 果 R 上 的 表 被 投影 到 属性 集合 X 上 ， 并 
且 R 上 的 表 + 包 含 和 XX 属性 值 相同 的 两 行 ， 但 是 这 两 行 关于 R\ X 中 的 某 些 属性 是 不 同 的 ， 
那么 投影 后 的 行 是 完全 一 样 的。 这 样 的 相同 行经 常 被 称 为 重复 duplicate )。 既 然 表 是 一 个 
集合 ， 那 么 表 中 就 不 能 包含 重复 ， 应 该 仅 保留 每 种 重复 的 唯一 代表 。 因 为 这 种 特征 是 纺 含 在 
集合 概念 中 的 ， 所 以 没有 在 投影 运算 的 定义 中 再 说 明 这 一 所 。 

商业 化 的 数据 库 系统 在 这 一 点 上 经 常 和 纯粹 的 关系 模型 不 同 。 在 实际 的 实现 中 ， 表 被 存 
储 为 文件 。 当 然 文件 可 以 包含 多 条 相同 的 记录 。 检 查 记录 的 唯一 性 需要 大 量 时 间 ， 所 以 通常 
商业 数据 库 中 的 表 可 以 包含 重复 的 记录 。 

关系 数据 库 中 的 投影 运算 和 向 量 空间 中 的 投影 有 关 但 是 并 不 相同 。 两 种 运算 都 是 取 一 些 
点 《在 数据 库 中 称 为 行 》 并 产生 低 维 空间 中 的 一 些 点 (属性 减少 的 行 )。 在 关系 数据 库 中 ， 
我 们 仅 可 以 投影 到 由 属性 直接 定义 的 子 空间 上 ;对 于 向 量 空间 ， 投 影 可 以 定义 在 任何 子 空间 
上 也 就 是 说 ， 基 本 向 量 〈( 这 里 是 属性 ) 的 线性 组 合 )。 
选择 

选择 运算 用 于 从 表 中 选择 行 。 如 果 给 定 一 个 对 表 r 中 各 行 的 布尔 条 件 F， 那 么 对 表 r 应 
用 选择 运算 oj 得 到 的 表 oj( 四 由 + 中 满足 这 个 条 件 的 行 构成 。 


子 集 时 ， 我 们 都 需要 使 用 选择 运算 。 在 数据 挖 气 算法 的 实现 中 也 经 常 出 现 选择 运算 。 例 如 ， 
在 建立 决策 树 时 ， 我 们 需要 选择 出 属于 树 的 特定 节点 的 记录 列表 。 这 个 记录 集合 就 是 选择 查 
询 的 答案 ， 查 询 的 选择 条 件 是 在 从 树 根 到 问题 中 这 一 节点 这 些 节点 中 出 现 的 条 件 的 与 。 类 似 
地 ， 如 果 我 们 要 使 用 关系 代数 来 实现 关联 规则 算法 ， 那 么 就 必须 执行 几 个 选择 查询 ， 每 一 个 
查询 对 应 于 满足 一 定 条 件 〈 候 选 频繁 集中 的 每 个 变量 取 值 为 D 的 记录 子 集 。 

在 纯粹 的 关系 代数 中 ， 选 择 是 基于 精确 相等 和 不 等 的 。 对 于 数据 挖掘 来 说 ， 我 们 经 常 需 
要 不 精确 的 或 者 说 近似 的 匹配 。 如 果 可 以 使 用 谓词 match 来 近似 匹配 属性 值 〈《 至 少 在 某 些 数 
据 库 系统 中 可 以 这 样 )， 那 么 我 们 便 可 以 直接 使 用 这 些 数 据 库 运 算 来 选取 满足 近似 匹配 条 件 
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的 行 。( 第 14 章 将 更 详细 的 讨论 近似 匹配 。) 


笛 卡 尔 积 和 联接 

投影 和 选择 都 是 用 来 从 表 中 删除 数据 的 。 联 接 Goin) AG KAR (Cartesian product) 
运算 是 用 来 把 存储 在 两 个 不 同 表 中 的 数据 连接 到 一 起 。 给 定 属性 集 分别 为 R 和 5 的 表 r 和 表 
s， 并 假定 R 和 5 是 不 相交 的 (也 就 是 说 ， 不 存在 同时 出 现在 两 个 集合 中 的 属性 )， 那 么 + 和 
s HEERE r x s 是 属性 集 RUS 上 的 表格 ， 而 且 它 包含 了 > 中 的 任 一 行 和 xs 的 任 一 行 粘贴 
到 一 起 可 以 得 到 的 所 有 行 。 因 此 rxs Alri, HP r PRITA 

在 合并 不 同 表 中 的 行 时 需要 用 到 和 饭 卡 尔 积 。 但 很 少 单独 使 用 它 ， 更 多 的 时 候 是 使 用 联接 
运算 。 给 定 一 个 选择 条 件 F, r 和 s 的 联接 ms 是 通过 从 rxs 中 选择 满足 条 件 下 的 行 得 到 的 。 
举例 来 说 ， 我 们 可 以 使 用 等 式 baskets.product = products.product 求 出 表 baskets 和 表 products 
的 联接 。 这 个 运算 的 结果 是 一 个 具有 如 下 列 的 表格 : 篮 标识 、 产 品名 、 数 量 和 价格 。( 更 精 
确 地 讲 , 这 个 结果 中 有 两 列 产品 名 , 分 别 来 自 两 张 原始 表 ; 我 们 可 能 需要 投影 掉 其 中 的 一 列 ,) 

在 数据 挖 扬 算法 中 联接 的 一 个 典型 应 用 是 组 合 不 同 来 源 的 信息 。 举 例 来 说 ， 如 果 我 们 具 
有 顾客 的 人 口 统计 学 信息 和 顾客 的 购买 行为 ， 这 些 数据 通常 是 存储 在 不 同 表 中 的 。 要 合并 这 
里 的 相关 数据 条 目 ， 我 们 就 需要 进行 联接 运算 。 


12.7 ”结构 化 查询 语言 


关系 代数 是 一 种 简洁 而 且 实用 的 表示 法 。 在 数据 库 管 理 系统 中 ，SQL (结构 化 查询 语言 
是 被 大 多 数 数据 库 管 理 系统 厂商 所 采用 的 标准 。SQL 实现 了 关系 代数 的 超 集 。 这 里 我 们 仅 介 
绍 SQL 程序 中 的 一 些 基 本 结构 。 

基本 的 SQL 语句 是 “select-from-where” 形 式 的 表达 式 或 者 查询 ， 它 的 有 具体 形式 如 下 ; 

select A, Áz … A, 

from Fo Fa °° Fk 

where ”条 件 列表 

这 里 ， 每 个 是 一 张 表 ， 每 个 ;是 一 个 属性 。 直 观 的 含义 就 是 测试 表 rn on 中 的 每 
个 可 能 的 行 组 合 ， 看 其 是 否 满 足 条 件 。 如 果 满 足 了 条 件 ， 那 么 就 输出 由 属性 A 的 值 组 成 的 行 。 

查询 的 第 二 行 ，from 子 句 ， 指 定 了 要 应 用 SQL 语句 的 表 。 第 三 行 ，where 子 句 确定 了 
那些 表 中 的 行 要 被 语句 的 结果 所 接受 所 必须 满足 的 条 件 。 第 一 行 ，select 子 句 ， 确 定 了 参与 
表 中 的 哪些 属性 会 出 现在 结果 中 。 它 相当 于 关系 代数 中 的 投影 运算 (并非 是 选择 运算 )。 
“where” 子 句 用 来 表示 出 现在 选择 和 连接 运算 中 的 选择 条 件 。 对 于 一 个 选择 运算 来 说 ， 选 
择 条 件 就 是 where 子 句 的 条 件 列表 ， 是 使 用 关键 字 and, or 和 not 分 隔 开 的 。 


例 12.4 可 以 使 用 下 面 的 查询 找到 价格 高 于 2 美元 的 所 有 商品 : 

select product 

from products 

where price>2.00 

下 面 的 语句 可 以 找到 至 少 包括 一 件 价格 超过 2 美元 的 商品 的 所 有 交易 : 
select basket-id, product, price 

from baskets, products 


下 
= 
is 


A 
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where _ baskets.product = products.product and price > 2.00 





如 果 “from” 子 名 中 的 一 些 表 有 具有 相同 的 属性 ， 那 么 当 这 些 属性 名 出 现在 “select” 子 
名 或 “where” 子 句 中 时 ， 必 须 在 这 些 属性 名 前 加 上 表 名 和 点 。 如 果 和 希望 参与 表 的 所 有 属性 
都 出 现在 结果 中 ， 那 么 可 以 用 “*” 代 替 “select” 子 句 的 属性 列表 。 

数据 库 查 询 中 的 聚合 (aggregation) 是 指 把 多 个 值 合并 成 一 个 ， 比 如 通过 求 和 或 最 大 值 
这 样 的 运算 符 。 关 系 代数 中 没有 聚合 运算 ， 但 是 SQL 中 有 。 一 个 聚合 通常 是 从 数据 库 中 计 
算出 一 个 量 ， 它 的 值 依 赖 于 数据 库 的 多 行 。 


例 12.5 下 面 的 查询 说 明了 如 何 使 用 SQL 来 描述 和 超市 销售 有 关 的 聚合 查 
询 。 首先 ， 我 们 寻找 每 种 商品 已 经 销售 了 多 少 份 。 要 实现 这 个 目的 ， 我 们 使 用 SQL 
的 group by 运算 。 这 个 运算 按照 特定 属性 的 值 把 输入 关系 的 行 分 成 组 ; SQL 语句 
中 的 其 他 运算 是 对 每 个 组 2 分 别 执行 的 。 

select item, sum(quantity) 

from baskets 





group by item 

这 个 语句 是 这 样 执行 的 ， 先 把 baskets 关系 中 的 行 按 照 属性 item 分 成 组 ， 然 后 
输出 每 组 商品 的 名 字 和 这 组 商品 的 数量 之 和 。 

下 面 的 查询 可 以 求 出 每 种 商品 的 总 销售 额 。 

select item, sum (quantity)* price 

from baskets, products 

where item = product 

group by item 

下 面 的 查询 可 以 求 出 属于 软饮料 的 每 种 商品 的 总 销售 额 。 

select item, sum(quantity)*price 

from baskets, products, product-hierarchy 

where item = product and products.product = product-hierarchy.product and class= 

“soft drink” 
group by item 


SQL 语句 是 为 传统 数据 库 应 用 而 开发 的 ， 比 如 生成 报表 、 并 发 访问 、 实 时 更 新 很 多 用 
户 的 事务 数据 等 等 。 因 此 ， 像 这 样 的 一 种 语言 没有 为 实现 数据 挖掘 算法 提供 很 好 的 平台 也 就 
不 足 为 奇 ， 这 样 讲 有 两 个 原因 : 缺乏 合适 的 原 语 (primitive) 和 效率 的 需求 。 

关于 原 语 ， 在 SQL 中 计数 和 聚合 是 非常 简单 的 。 所 以 举例 来 说 ， 关 联 规则 算法 所 需 的 运 
算 使 用 SQL 来 访问 数据 是 非常 直截了当 的 。 在 建立 决策 树 时 ， 我 们 需要 能 够 数 出 满足 出 现在 
从 根 到 问题 中 节点 这 些 树 节点 条 件 的 记录 数目 ， 可 以 使 用 选择 和 计数 查询 来 完成 。 然 而 SQL 
中 的 原 语 无 法 完成 常见 的 统计 运算 ， 比 如 矩阵 的 转 置 ， 奇 异 值 分 解 《SVD) 等 等 。 要 使 用 SQL 
来 做 这 些 运算 是 非常 麻烦 的 ， 这 意味 着 拟 合 复杂 模型 通常 是 在 数据 库 系统 之 外 来 进行 的 。 

即使 SQL 康 语 足 以 表达 数据 挖掘 算法 中 的 运算 ， 也 还 有 很 多 理由 要 使 用 松 耦 合 方式 来 





O 译注 :原文 此 处 为 “每 个 子 向 ”， 当 属 笔 误 。 
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实现 算法 ， 也 就 是 把 有 关 数 据 下 载 到 算法 中 。 诛 因 是 数据 库 管 理 系统 和 应 用 程序 问 的 连接 通 
常 要 给 每 个 查询 附加 很 大 的 额外 开销 。 因 此 ， 虽 然 利 用 SQL〔 比 如 说 〉 来 表示 关联 规则 算法 
中 的 基本 运算 是 很 经 典 的 ， 但 是 这 样 的 算法 通常 非常 缓慢 。 另 外 一 个 导致 性 能 问题 的 原因 是 
在 关联 规则 算法 (举例 来 说 ) 中 我 们 必须 计算 大 量 候 选 频繁 集合 的 频率 。 在 专门 的 实现 中 很 
容易 通过 遍历 数据 一 次 完成 很 多 个 这 样 的 计数 ， 然 而 在 基于 数据 库 管 理 系统 和 SQL 的 实现 
中 ， 要 为 每 个 候选 频繁 集 都 提交 一 个 独立 的 查询 。 





12.8 查询 的 执行 和 优化 


可 以 用 很 多 不 同 的 方式 来 求解 查询 。 举 例 来 说 ， 考 虑 下 面 这 个 查询 : 


select t.product 
from baskets t, baskets u 


where t.transaction = u.transaction and u.product = “beer” 


ix! “baskets t, baskets au” 的 含义 是 在 查询 中 上 A u 是 指 表 baskets 的 行 。 因 为 我 们 希 
望 引用 同一 张 表 中 的 两 组 行 ， 所 以 这 种 表示 是 必须 的 。 这 个 查询 是 寻找 那些 含有 啤酒 的 交易 
中 购买 的 所 有 商品 。 

求解 这 一 种 查询 的 原始 方法 是 试验 baskets 表 中 的 所 有 可 能 行 对 ， 检 查 它们 的 basket-id 
属性 是 否 一 致 ， 并 检验 第 二 行 的 产品 属性 中 是 否 有 “啤酒 ”。 这 将 需要 进行 对 行 的 忆 次 运算 ， 
其 中 是 baskets 表 的 大 小 。 

一 种 更 有 效 的 方法 是 首先 定位 到 baskets 表 中 产品 属性 为 “啤酒 ”的 行 ， 并 把 这 些 行 的 
basket-id 排列 到 一 个 列表 L 中 。 然 后 我 们 可 以 使 用 basket-id 属性 作为 排序 关键 字 对 baskets 
表 进 行 排序 ， 并 提取 出 basket-id 出 现在 列表 L 中 的 行 的 products RHES. BE L 是 比较 短 
的 列表 ， 那 么 这 种 方法 需要 O(n) 次 运算 来 找到 含有 “啤酒 ”的 行 ，O(nlogn) 次 运算 来 对 行进 
行 排序 ， 以 及 O(n) 次 运算 来 扫描 排序 的 列表 并 选 出 正确 的 值 ， 也 就 是 一 共 需 要 O(nlogn) 次 运 
算 。 这 显然 比 前 面 原始 方法 所 需 的 O(n”) 次 运算 有 很 大 改进 。 

查询 优化 的 任务 就 是 要 为 给 定 的 查询 找到 最 佳 的 求解 方法 ,通常 , 查询 优化 程序 把 SQL 
查询 翻 详 成 一 个 表达 式 树 ， 树 的 叶子 表示 表 ， 内 部 节点 表示 对 节点 子女 的 运算 。 然 后 ， 可 
以 使 用 运算 间 的 代数 等 式 把 这 个 树 转 化 成 可 以 更 快 求解 的 等 价 形式 。 在 前 面 的 例子 中 ， 我 
们 使 用 了 等 式 ax(rxs) = oxn)Ms， 其 中 FF 是 选择 条 件 ， 它 仅 关心 > 的 属性 。 在 找到 了 适当 
的 表达 式 树 后 ， 便 开始 选择 用 于 每 个 运算 的 求解 方法 。 例 如 ， 可 以 使 用 几 种 不 同 的 方式 来 
求解 联接 运算 ， 通 过 身 套 循环 〈 就 像 上 面 的 原始 方法 那样 )， 通 过 排序 ， 或 者 使 用 索引 。 
每 种 方法 的 效率 依赖 于 表 的 大 小 以 及 表 中 的 值 。 因 此 ， 查 询 优 化 程序 记录 这 些 量变 化 的 信 
息 以 发 现 好 的 求解 方法 。 从 理论 上 讲 ， 寻 找 给 定 查询 的 最 佳 求解 策略 是 一 种 NP- 困 难 
(NP-hard) 问题 ， 因 此 寻找 最 佳 方法 是 不 可 行 的 。 不 过 ， 好 的 查询 优化 程序 还 是 可 以 达到 
惊人 的 效果 。 

数据 库 管 理 系统 力争 为 很 大 范围 内 的 不 同 查询 提供 好 的 求解 性 能 。 因 此 ， 对 于 某 个 单一 
查询 来 说 ， 有 可 能 写 一 个 程序 求 出 结果 比 用 数据 库 管 理 系统 来 求解 它 更 高 效 ， 数 据 库 管 理 系 
统 的 威力 在 于 快速 地 执行 大 多 数 杏 询 。 在 数据 挖掘 应 用 中 ， 这 是 很 有 价值 的 ， 因 为 通常 事先 
都 是 不 知道 查询 的 〈 比 如 在 构建 决策 树 的 应 用 中 )。 


12.9 数据 仓库 和 在 线 分 析 处 理 


带 有 顾客 、 交 易 、 产 品 、 价 格 等 信息 的 零售 数据 库 是 业务 数据 库 〈operational database ) 
的 典型 例子 ， 业 务 数 据 库 就 是 用 于 处 理 机 构 内 日 常 业务 操作 的 数据 库 ， 而 及 这 些 操作 对 数据 
库 的 依赖 性 非常 强 。 运 转 数 据 库 的 其 他 实例 包括 机 票 预订 系统 、 银 行 账户 数据 库 等 等 。 策 略 
数据 库 (strategic database) 是 机 构 内 用 于 决策 的 数据 库 。 数 据 挖掘 和 次 策 文 持 是 密 不 可 分 的 ， 
实际 上 可 以 说 数据 挖掘 的 主要 目标 就 是 决策 支持 。 

通常 ， 一 个 组 织 有 几 个 不 同 的 业务 数据 库 。 比 如 ， 和 零售 部 门 会 建立 购物 复数 据 库 、 仓 储 
数据 库 、 客 户 数 据 库 (一 个 或 多 个 )、 工 资 数据 库 、 供 应 商 数据 库 等 等 。 事 实 上 ， 一 个 有 多 
种 业务 的 服务 性 公司 甚至 有 几 个 客户 数据 库 。 加 起 来 ， 一 个 大 的 机 构 可 能 有 成 百 上 于 的 业务 
数据 库 。 决 策 支持 的 目的 就 是 把 这 些 位 于 不 同业 务 数据 库 中 的 信息 组 合 起 来 并 发 现 公司 内 部 
以 及 公司 与 客户 的 整个 行为 模式 。 建 立 直 接 访问 业务 数据 库 的 次 策 支持 系统 是 非常 困难 的 。 

像 零 售 数据 库 、 客 户 数据 库 或 者 机 票 预订 系统 这 样 的 数据 库 大 多 时 候 是 用 来 回答 定义 好 
的 重复 性 查询 的 ， 比 如 “这 个 篮子 中 的 所 有 商品 的 总 价格 是 多 少 ”“ 客 户 史密斯 的 地 址 是 什 
么 ”或 者 “账户 123456 的 余额 是 多 少 ? ”这 样 的 数据 库 必须 支持 大 量 的 事务 处 理 任务 一 一 对 
数据 内 容 的 查询 和 更 新 。 数 据 库 的 这 类 用 法 被 称 为 在 线 事务 处 理 (OLTP). 

决策 支持 任务 需要 另 一 种 类 型 的 查询 : 最 重要 的 是 聚合 。 典 型 的 决策 支持 查询 可 能 是 “ 找 
出 所 有 产品 按 区 域 和 按 月 份 的 销售 额 ， 并 比较 该 结果 与 上 一 年 的 差异 。 ”术语 在 线 分 析 处 理 
(OLAP) 就 是 指使 用 数据 库 来 总 结 数据 ， 聚 合 是 其 主要 机 制 。 


例 12.6 假定 零售 数据 库 的 各 个 表 具 有 如 下 形式 : 





baskets (basket-id, item, quantity} 
products(product, price, supplier, category) 
product -hierarchy (product, category} 
basket-stores(basket-id, store, day) 


stores(store’s name, city, country) 

这 里 我 们 已 经 加 入 了 一 张 表 basket-stores 用 来 说 明 某 一 笔 销售 是 在 哪个 店 在 哪 一 
天 产生 的 。 从 决策 支持 的 角度 出 发 ， 使 用 下 面 的 表 可 以 更 好 的 表示 某 一 天 在 某 个 店 销 
售 某 一 产品 的 数量 : 

sales(product, store, date, amount) 


我 们 可 以 用 SQL 语句 向 这 个 表格 中 加 入 行 : 


insert into sales(product, store, date, amount) 

select item, store, date, sum(quantity) *price 

from baskets, baskez-stores, products 

where baskets. basket-id = basket-stores.basket-id and item = product 
group by item, store, date 


然后 ， 我 们 可 以 利用 下 面 的 查询 找到 所 有 产品 大 类 在 各 国家 的 总 销售 额 : 
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select products.product, store.country, sum(amount) 
from sales, stores, dates, products 
where dates.year > 1997 
and sales.product=products.product 
and sales.store=stores.store 
and sales.date=dates.date 
group by products.category, store.country 


OLTP 和 OLAP 对 数据 库 系 统 有 不 同 的 要 求 。OLTP 要 求 数 据 是 最 新 的 ， 人 允许 查询 修改 
数据 ， 人 允许 多 个 事务 同时 执行 而 也 不 妨碍 ， 对 反应 速度 要 求 很 高 等 等 。 不 过 ，OLTP 的 查询 
和 更 新 本 身 是 比较 简单 的 。 与 此 相反 ，OLAP 的 查询 非常 复杂 ， 但 通常 在 给 定 的 时 间 里 仅 有 
一 个 查询 在 执行 。OLAP 的 查询 不 修改 数据 ， 而 且 如 果 是 在 探索 上 一 年 的 销售 情况 ， 那 么 目 
前 的 销售 信息 并 不 是 很 关键 的 。 可 见 二 者 的 差异 很 大 ， 以 至 于 应 该 考虑 使 用 不 同 的 存储 策略 
来 处 理 这 两 种 应 用 。 

数据 仓库 〈data warehouse) 是 以 支持 决策 为 目的 用 来 存储 不 同业 务 数据 库 信息 的 数据 
库 系 统 。 有 零售 商 所 使 用 的 数据 仓库 可 能 包含 来 自 以 下 这 些 数据 库 的 信息 : 购物 复数 据 库 、 供 
应 商 数 据 库 、 顾 客 数据 库 等 等 。 如 果 工 资 数据 库 对 决策 支持 不 是 至 关 紧 要 的 ， 那 么 在 这 个 数 
据 仓 库 中 就 不 必 包 含 这 个 数据 库 的 数据 。 并 不 是 仅仅 把 来 自 不 同 数据 库 的 数据 堆积 到 一 个 磁 
盘 上 就 建立 起 数据 仓库 了 。 而 是 必须 进行 一 些 集成 工作 ， 例 如 解决 一 些 属性 名 和 用 法 可 能 存 
在 的 不 一 致 ， 查 明 属 性 和 值 的 语义 等 等 。 很 多 情况 下 ， 建 立 数据 仓库 都 是 要 付出 很 高 代价 的 ， 
因为 很 多 地 方 需要 作 手 工 的 调整 ， 而 且 要 理解 业务 数据 库 的 详细 情况 。 

OLTP, OLAP 和 数据 挖掘 间 并 不 是 界限 分 明 的 。 就 拿 下 面 这 些 查询 来 说 : 寻找 一 个 顾 
客 的 地 址 ， 寻 找 这 个 产品 的 上 月 销量 ， 按 地 区 和 月 份 寻找 所 有 产品 的 销量 ， 寻 找 销量 的 走势 ， 
寻找 哪些 产品 具有 相似 的 销售 模式 ， 寻 找 可 以 预测 某 个 产品 区 隔 〈 聚 类 ) 销量 的 规则 。 通 常 ， 
第 一 个 查询 是 典型 的 OLTP 查询 ， 第 二 个 是 典型 的 OLAP 查询 ， 最 后 两 个 是 数据 挖掘 查询 ， 
但 是 很 难 定义 数据 挖掘 和 OLAP 间 的 界限 。 


12.10 OLAP 的 数据 结构 


OLAP 需要 对 很 大 的 数据 库 表 进行 不 同 的 聚合 计算 。 因 为 很 多 聚合 要 反复 使 用 很 多 次 ， 
所 以 把 其 中 的 一 部 分 存储 起 来 是 很 有 意义 的 。 数 据 立 方 体 (data cube) 是 一 种 以 表格 的 方式 
观察 不 同 聚 合 结果 的 巧妙 技术 。 

在 前 面 的 例子 中 我 们 是 用 下 面 的 模式 来 表示 销售 表 : 


sales(product, store, date, amount). 
这 个 表 中 可 能 有 这 样 的 一 行 : 
sales(red wine, store 1, August 25, 17.25), 


这 一 行 表示 1 号 店 在 8 月 25 日 销售 了 红酒 。 如 果 虚 构 一 个 新 的 值 a 来 表示 所 有 的 产品 ， 
那么 我 们 可 以 把 这 样 的 行 : 


sales(all, store 1, August 25, 14214.70), 
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看 作 1 号 店 在 8 月 25 日 的 所 有 产品 销售 额 是 14 214.70 美元 。 从 统计 的 角度 来 看 ， 这 给 
出 了 这 个 表 的 一 个 边际 值 ， 汇 总 了 第 一 个 属性 的 值 。 
这 个 销售 表 的 数据 立方 体 包含 所 有 的 行 


sales( a, b, c, d); 


HH, a b Mc 要 么 是 对 应 属性 定义 域 中 的 值 ， 要 么 是 特定 值 al; d 是 对 应 的 和 。 人 也 就 是 
说 ， 数 据 立 方 体 是 由 原始 表 和 所 有 边际 表 (一 维 的 ， 二 维 的 ， 直 到 对 每 一 个 属性 分 别 汇总 所 
得 到 的 表 ) 组 成 的 。 


12.11 字符 串 数 据 库 


近年 来 ， 对 文本 和 字符 串 数据 库 的 兴趣 迅猛 地 增长 。 分 子 生 物 学 是 导致 这 种 增长 的 一 个 
原因 : 现代 生物 科技 产生 了 大 量 蛋 白质 和 DNA 数据 集合 ， 而 这 些 数据 集 经 常 是 以 字符 串 的 
形式 记录 的 。 更 重要 的 一 个 原因 是 网 络 的 发 展 ， 搜索 引擎 需要 高 效 的 方法 来 寻找 包含 给 定 条 
件 的 文档 。 关 系数 据 库 擅 于 以 表格 方式 存储 数据 ， 但 是 并 不 擅 于 表示 和 访问 大 量 文本 。 最 近 ， 
一 些 商业 数据 库 系统 已 经 加 入 了 对 高 效 查 询 庞大 文本 数据 字段 的 支持 。 

对 于 一 个 给 定 的 庞大 文本 汇集 ， 一 个 典型 的 查询 可 能 是 “ 找 出 文本 中 出 现 “ 挖 所 ”这 个 

420] ” 词 的 所 有 地 方 ”” 更 广泛 地 讲 ， 这 个 问题 是 在 文本 了 中 寻找 模式 P 出 现 的 地 方 。 模 式 P 可 能 
是 一 个 简单 的 字符 串 ， 一 个 含有 通配符 的 字符 串 ， 或 者 甚至 是 一 个 常规 的 表达 式 。P 在 T 中 
的 出 现 可 以 被 定义 为 精确 的 匹配 或 者 是 允许 误差 的 近似 匹配 。 

很 明显 ， 可 以 通过 顺序 的 扫描 文本 并 在 每 个 位 置 测试 是 否 和 P 匹配 来 寻找 模式 T 出 现 
的 地 方 。 但 还 有 效率 更 高 的 方法 ， 例 如 利用 后 组 树 (suffix tree) 数据 结构 我 们 可 以 在 和 模式 
p 的 长 度 成 比例 (而 且 不 依赖 于 文本 的 大 小 ) 的 时 间 内 找到 出 现 p 的 列表 , 并 在 时 间 Olp + L) 
内 输出 出 现 p 的 地 方 ， 其 中 工 是 p 在 文本 中 出 现 的 次 数 。 构 建 后 缀 树 的 时 间 和 原始 文本 的 大 
小 是 线性 关系 ， 因 此 在 实践 中 也 是 很 快速 的 。 

简单 地 讲 ， 网 络 搜索 引擎 有 两 种 数据 结构 : 页 面 关 系 表 pages (page-address, page-text) 
和 后 级 树 ， 后 缀 树 包含 了 调 入 系统 的 所 有 文档 的 所 有 文本 。 当 用 户 提交 了 一 -个 查询 ， 比 如 说 
“ 找 出 包含 “数据 ”和 “ 挖 握 ” 这 两 个 词 的 所 有 文档 ”， 搜 索引 擎 便 使 用 后 缀 树 来 找 出 包含 “ 数 
据 ” 一 词 的 和 包含 “ 挖 握 ” 一 词 的 两 个 页 列表 。 假 定 列 表 是 排序 的 ， 那 么 便 可 以 直接 找 出 两 
个 词 都 出 现 的 文档 。 然 而 应 该 注意 包含 两 个 词 的 文档 数 可 能 远 远 小 于 包含 其 中 之 一 的 文档 数 。 














12.12 海量 数据 集 、 数 据 管 理 和 数据 挖掘 


到 目前 为 止 我 们 讨论 的 焦点 一 直 都 集中 在 一 般 意义 的 数据 库 技 术 上 ， 还 没有 讨论 一 个 重要 
的 问题 ， 数据 挖掘 和 数据 库 技术 是 如 何 相互 配合 的 。 我 们 对 这 种 交互 性 的 讨论 将 是 比较 简要 的 ， 
因为 到 目前 为 止 还 没有 一 种 被 研究 者 和 实践 者 们 都 公认 为 很 好 的 方法 来 处 理 数据 挖 拥 算 法 和 数 
据 库 技 术 间 的 配合 问题 。 主 要 问题 是 ， 很 多 海量 数据 集 要 么 是 已 经 被 存储 在 关系 数据 库 中 ， 要 
么 是 如 果 把 它们 转换 为 关系 数据 库 形式 ， 那 么 在 数据 挖 所 项 目 中 就 可 以 更 高 效 地 管理 和 访问 它 





储 器 上 的 平面 文件 。 如 果 被 挖掘 的 数据 主要 是 在 砌 副 上 的 ， 而 且 / 或 者 是 以 关系 形式 也 许 具有 
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SQL 接口 ) 存储 的 ， 那 么 我 们 应 该 如 何 解决 数据 挖掘 算法 和 数据 的 接口 问题 呢 ? 

这 就 是 数据 管理 (data management) 所 要 解决 的 问题 ， 正 如 第 5 章 中 所 简要 讨论 的 ， 大 
多 数 数据 挖掘 算法 一 般 并 不 明确 地 指定 数据 管理 方法 。 或 许 这 确实 是 最 灵活 的 做 法 ， 因 为 在 
实践 中 我 们 所 采用 的 方法 是 由 很 多 实际 因素 所 决定 的 ， 比 如 说 数据 的 数量 、 可 供 使 用 的 主 存 
储 器 的 大 小 、 需 要 重新 运行 算法 的 频繁 程度 等 等 。 尽 管 如 此 ， 我 们 还 是 可 以 归纳 解决 这 个 问 
题 的 几 种 一 般 做 法 ， 有 具体 讨论 如 下 。 





12.12.1 ”把 数据 都 放 入 主 存储 器 


最 明显 的 一 种 方法 就 是 看 是 否 可 以 把 数据 存储 在 主 存储 器 中 让 数据 挖掘 算 法 高 效 的 存 
取 ， 这 是 实践 中 被 使 用 了 多 年 的 方法 。 由 于 主 存储 器 技术 的 发 展 ， 随 机 访问 存储 器 CRAM ) 
的 容量 已 经 上 升 到 G 字 节 的 范围 ， 所 以 对 于 很 多 中 等 大 小 的 数据 分 析 应 用 ， 这 种 方法 很 实 
用 。 当 然 还 有 很 多 应 用 有 数 十 亿 条 复杂 事务 ， 这 种 情况 下 我 们 不 能 指望 很 短 时 间 内 可 以 把 这 
样 的 数据 都 调 入 主 存储 器 。 这 时 我 们 可 以 考虑 选择 数据 的 一 个 部 分 ， 或 许可 以 产生 一 个 随机 
样本 ， 从 而 使 要 处 理 的 记录 数 为 tn 而 不 是 n(n' 远 远 小 于 n). 

我 们 也 可 以 用 某 种 方式 来 选择 特征 子 集 。 比 如 说 ， 本 书 作 者 之 一 所 研究 的 某 个 应 用 小 
及 1 000 个 变量 和 200 000 个 顾客 。 决 策 树 是 根据 5000 个 顾客 的 随机 样本 建立 的 ， 然 后 在 
200 000 条 记录 的 整个 集合 上 使 用 最 终 决 策 树 中 变量 的 联合 来 建立 模型 《利用 树 、 非 线性 回 
归 和 其 他 技术 )。 当 然 这 完全 是 一 种 启发 性 的 过 程 ， 在 建 模 时 某 个 重要 的 变量 可 能 已 经 在 根 
据 随 机 采样 得 到 的 决策 树 中 被 遗漏 了 。 尽 管 如 此 ， 它 是 “数据 工程 ”中 一 个 相当 典型 的 例子 ， 
因为 实践 中 经 常 需要 在 合理 的 时 间 内 得 到 有 意义 的 结果 。 还 应 注意 从 关系 数据 库 中 产生 随机 
样本 本 身 可 能 就 是 个 重要 而 且 复 杂 的 过 程 。 当 然 有 很 多 方法 改进 了 基本 的 随机 采样 思想 ， 比 
如 先 取 一 个 较 小 的 初始 样本 来 了 解数 据 的 总 体 “ 地 形 ”(landscape)， 然 后 再 以 某 种 自动 方式 
进一步 提炼 这 个 样本 ， 等 等 。 

当然 即使 主 存储 器 可 以 容纳 全 部 数据 ， 我 们 也 必须 谨慎 从 事 ， 很 可 能 我 们 必须 对 数据 进 
一 步 抽样 以 使 数据 挖掘 算法 的 运行 时 间 更 短 。 此 外 ， 简 单 实现 的 算法 在 运行 时 可 能 产生 大 量 
的 中 间 结构 《例如 数据 年 阵 的 不 必要 拷贝 ， 这 也 可 能 导致 超出 可 供 使 用 的 主 存储 器 的 和 人 

能 力 。 因 此 不 言 而 喻 ， 即 使 是 对 于 数据 都 已 驻 留 在 主 存储 器 中 的 情况 ， 保 证 算法 实现 在 内 存 
和 时 间 方面 的 高 效 性 仍然 是 很 重要 的 。 


12.12.2 ”数据 挖掘 算法 的 可 伸缩 版 本 


“可 伸缩 〈scalable)” 这 个 术语 在 数据 挖掘 文献 中 所 表达 的 含义 多 少 有 些 不 严谨 ， 但 是 
我 们 可 以 认为 它 是 指数 据 控 掘 算法 可 以 很 好 地 适应 记录 数 n 和 变量 数 p 的 增长 。 举 例 来 说 ， 
当 n 增 大 到 足够 大 时 ， 决 策 树 算法 的 朴素 实现 运行 时 间 性 能 会 急剧 下 降 ， 原 因 是 这 个 算法 需 
要 频繁 地 访问 磁盘 上 的 数据 。 在 实践 中 ， 目 前 关于 可 伸缩 性 的 研究 更 多 地 集中 在 n 很 大 的 问 
Bik: p 很 大 的 情况 比 n 很 大 的 情况 更 加 复杂 

对 可 伸缩 数据 挖掘 算法 的 一 条 研究 路 线 是 开发 已 有 著名 算法 的 可 伸缩 版 本 ， 可 伸缩 版 
本 保证 返回 和 原来 (朴素 ) 实现 相同 的 结果 ， 但 是 对 于 很 大 的 数据 集 通常 运行 的 更 快 。 这 
种 通用 策略 的 一 个 例子 是 Gehrke A (1999) 的 做 法 ， 他 们 提出 了 一 族 被 称 为 BOAT (用 
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于 构建 树 的 自 展 优化 算法 (Bootstrapped Optimistic Algorithm for Tree Construction)) 的 算 
法 。BOAT 方法 对 整个 数据 集 扫 描 两 次 。 在 第 一 次 要 描 中 ， 利 用 一 个 来 自 完整 数据 的 较 小 
随机 样本 《〈 主 存储 器 可 以 容纳 ) 来 构建 “优化 树 ”。 第 二 次 扫描 分 析 初 始 树 和 假定 利用 所 
有 数据 建立 起 来 的 树 之 间 的 差异 。 这 种 方法 得 到 的 树 和 朴素 算法 〈 效 率 很 低 ) 建立 的 树 相 
同 。 这 种 方法 中 使 用 了 很 多 巧妙 的 数据 结构 用 以 记录 树 节点 的 统计 量 。Gehrke 等 人 (1999) 
报告 ， 对 于 具有 1 千 万 个 数据 向 量 的 9 维 合成 数据 ， 利 用 这 种 方法 把 分 类 树 拟 合 到 这 些 数 
据 的 时 间 大 约 是 200 秒 ， 

一 种 相关 的 策略 是 导出 新 的 近似 算法 ， 这 些 算法 凭借 各 种 启发 (对 数据 的 线性 扫描 次 数 
很 少 ) 天 生 有 具有 期 望 的 可 伸缩 性 能 。 这 些 算 法 通常 有 很 好 的 伸缩 性 但 是 不 一 定 和 算法 原来 的 
“ 非 伸缩 ”版 本 保持 一 致 。 例 如 , Bradley, Fayyad and Reina (1998) 以 及 Zhang, Ramakrishnan 
and Livny (1997) 讨论 了 具有 这 种 特征 的 可 伸缩 聚 类 算法 。 


12.12.3 考虑 磁盘 访问 的 有 针对 性 算法 


解决 磁盘 数据 问题 的 另 一 种 方法 是 开发 与 关系 数据 库 和 事务 数据 紧密 耦合 的 新 算法 。 这 
方面 的 一 个 最 佳 例子 是 关联 规则 算法 ， 在 第 5 章 中 我 们 曾 简单 提起 过 这 种 算法 ， 在 下 一 章 中 
我 们 将 更 详细 的 讨论 该 算法 。 关 联 规 则 算法 的 搜索 部 分 利用 了 事务 数据 通常 都 很 稀 踊 的 特性 

〈 例 如， 每 一 笔 交易 中 ， 大 多 数 顾客 仅 购 买 了 很 少 的 几 种 商品 )。 从 项 层 来 看 ， 这 种 算法 通 
常 采 用 广度 优先 搜索 策略 ， 对 树 的 每 一 层 扫描 一 次 数据 ， 执 行 起 来 比较 容易 。Agrawal 等 人 
(1996) 报告 了 对 包含 1 000 种 商品 和 1 千 万 条 记录 的 综合 数据 进行 处 理 的 结果 。 他 们 的 实 
验证 明了 自己 的 算法 在 这 个 数据 集 上 的 运行 时 间 是 交易 数 的 线性 函数 。 在 其 他 稀疏 事务 数据 
集 上 的 结果 与 此 类 似 ， 而 且 已 经 开发 出 了 基本 算法 的 很 多 变 体 (参见 第 13 章 )。 


12.12.4” 伪 数据 集 和 充分 统计 量 


图 12-5 显示 了 另 一 种 通用 的 思想 ， 可 以 把 这 种 思想 看 作 是 对 随机 抽样 的 推广 。 产 生 一 
个 近似 的 数据 集 (通常 很 小 )， 然 后 让 数据 挖掘 算 法 访问 这 个 数据 集 ( 比 如 说 在 主 存储 器 上 ) 
而 不 是 处 理 整个 数据 〈 在 磁盘 上 )。 当 然 这 种 一 般 方法 所 得 到 的 仅 是 对 在 整个 数据 上 运行 算 
法 时 所 得 到 结果 的 近似 。 然 而 ， 如 果 构 建 近似 数据 集 的 方式 足够 巧妙 ， 那 么 很 多 时 候 便 可 能 
得 到 几乎 相同 的 结果 。 实 践 中 的 大 多 数 情况 是 ， 我 们 要 使 用 不 同 的 模型 、 不 同 的 变量 等 等 ， 
要 运行 数据 挖掘 算法 很 多 次 ， 最 后 才 停 留 在 最 终 模型 上 。 对 于 这 样 的 探索 性 建 模 过 程 ， 近 似 
数据 集 特别 有 价值 (探索 过 程 中 不 必 使 用 整个 数据 集 )。 





图 12-5 ”让 数据 挖掘 算法 操作 完整 数据 集 的 思想 框架 


一 一 
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在 这 一 通用 框架 下 ，Du Mouchel 等 人 (1999) 提出 了 一 种 受 统计 思想 局 发 的 “数据 挤 
压 ” 方 法 ， 该 方法 产生 nn 个 “ 伪 ” 数 据点 ， 其 中 nn? 远 远 小 于 原来 的 数据 点 数 n， 而 且 这 些 伪 
数据 点 是 由 算法 自动 选取 的 ， 用 来 模仿 原始 大 数据 集 的 统计 结构 。 其 一 般 思 想 就 是 要 尽 可 能 
地 逼近 似 然 函数 的 结构 ， 即 使 在 数据 挖掘 算法 中 并 没有 指定 所 用 模型 的 函数 形式 。 实 验 表明 
在 逻辑 回归 问题 中 , 这 种 方法 与 对 数据 集 的 简单 抽样 相 比 明显 地 降低 了 预测 误差 (Du Mouchel 
etal. (1999))。 

对 于 某 些 相关 主题 的 数据 集 ， 使 用 比 平面 文件 和 关系 数据 库 中 的 多 重 表格 更 高 效 的 数据 
结构 来 存储 原始 数据 可 能 就 足够 了 。Moore and Lee (1998) 提出 的 AD- 树 结构 提供 了 一 种 存 
储 多 元 范畴 型 数据 (例如 计数 ) 的 高 效 机 制 。 数 据 挖掘 算法 可 以 从 AD- 树 中 访问 计数 和 相关 
的 统计 量 ， 这 比 直接 访问 原始 数据 要 快 得 多 。 据 报告 ， 这 样 可 以 把 各 种 分 类 算法 的 计算 速度 
提高 50 到 5 000 倍 〈 和 算法 的 朴素 实现 相 比 ) (Moore (1999)). 

总 而 言 之 ， 可 以 使 用 很 多 不 同 的 技术 来 实现 数据 挖 据 算 法 ， 使 其 处 理 大 数据 集 的 时 间 和 
空间 效率 都 很 高 。 事 实 上 ， 还 有 一 些 算法 我 们 这 里 没有 提 到 ， 比 如 仅 观 察 数据 点 一 次 的 在 线 
算法 〈 对 于 数据 是 高 速 连续 流 的 应 用 很 有 价值 ); 以 及 面向 硬件 的 解决 方案 ， 比 如 算法 的 并 
行 处 理 实现 〈 对 于 数据 和 算法 都 允许 高 效 并 行 处 理 的 情况 适用 )。 对 特定 技术 的 选择 大 多 数 
时 候 都 依赖 于 数据 挖掘 应 用 中 的 实际 情况 一 一 比如 说 ， 数 据 挖掘 算法 产生 答案 的 速度 必须 有 
多 快 ? 模型 是 否 必 须 不 断 地 更 新 ? 等 等 情况 。 对 可 伸缩 数据 挖掘 算法 的 研究 很 可 能 还 要 继续 
一 段 时 间 ， 我 们 期 待 着 这 个 领域 有 更 大 的 进展 。 有 必要 提醒 读者 ， 就 像 其 他 所 有 事情 一 样 ， 
天 下 没有 免费 的 午餐 ! 换 句 话 来 说 ， 模 型 精度 、 算 法 速度 和 内 存 等 因素 通常 都 是 相互 制约 的 。 
要 选择 出 最 适合 当前 问题 的 算法 和 数据 结构 不 仅 要 仔细 地 考虑 算法 方面 的 问题 ， 还 应 该 考虑 
算法 和 模型 在 实践 中 的 应 用 细节 。 


12.13 ”补充 读物 


每 年 都 有 很 多 高 质量 的 数据 库 会 议 ， 比 如 美国 计算 机 学 会 (ACM) 主办 的 数据 管理 会 
议 (SIGMOD)， 以 及 关于 数据 库 原理 和 基于 知识 系统 的 SIGACTSIGMOD-SIGART 专题 讨 
论 会 、 超 大 型 数据 库 会 议 (VLDB) 以 及 数据 工程 国际 会 议 OCDE). 

有 几 本 数据 库 方面 的 教材 是 非常 优秀 的 ， 其 中 包括 Ullman (1988), Abiteboul, Hull and 
Vianu (1995)， 以 及 Ramakrishnan and Gehrke (1999), Chaudhuri (1998) 调查 了 查询 优化 
的 最 新 成 果 。Gray et al. (1996) 和 Gray et al. (1997) 讨论 了 数据 立方 体 。Chaudhuri and Dayal 
(1997) 很 好 地 介绍 了 OLAP. Garcia-Molina et al. (1999) 介绍 了 数据 库 管 理 系 统 的 实现 。 
Shoshani (1997) 很 好 地 讨论 了 OLAP 和 统计 数据 库 。Sarawagi et al. (2000) 和 Holsheimer et 
al. (1995) 中 讨论 了 使 用 数据 库 管 理 系统 来 实现 数据 挖掘 算法 的 问题 。 

Madigan et al.〈 出 版 过 程 中 ) 讨论 了 对 原始 数据 挤 压 方法 的 各 种 扩展 。Provost and Kolluri 
(1999) 概括 了 实现 可 伸缩 数据 挖掘 算法 的 不 同 技术 ， 以 处 理 非常 庞大 的 数据 集 。Provyost， 
Jensen and Oates (1999) 以 及 Domingos and Hulten (2000) 介绍 了 在 数据 挖掘 中 对 超大 数据 

集 进 行 采 样 的 一 些 实例 。 





第 13 章 寻找 模式 和 规则 


13.1 简介 


本 章 将 讨论 从 庞大 数据 集中 寻找 有 用 模式 和 规则 的 问题 。 我 们 在 前 面 的 章节 中 曾经 
指出 : 模式 是 一 种 局 部 概 含 ， 它 反映 了 数据 某 一 方面 的 信息 ， 而 模型 则 是 对 数据 的 全 面 
描述 。 

对 于 一 个 描述 超市 顾客 的 数据 集合 来 说 ， 模 式 可 能 是 “十 分 之 一 的 顾客 购买 了 酒 和 干 
栈 ”， 对 于 一 个 通信 警报 数据 集 来 说 ， 模 式 可 能 是 “如 果 在 30 秒 内 相继 发 生 了 警报 A 和 警报 
B, WAR 50% 的 概率 在 60 秒 内 会 发 生 警 报 C” 对 于 第 1 章 中 讨论 的 网 络 日 志 数 据 集 ， 模 
式 的 一 个 例子 是 “如 果 一 个 人 访问 了 美国 有 线 新 闻 网 (CNN)， 那 么 他 有 60% 的 可 能 性 会 在 
同一 个 月 内 访问 美国 广播 公司 《ABC) 新 闻 网 站 "。 在 这 些 例子 中 ， 每 个 横 式 都 是 关于 部 分 
数据 的 有 趣 信息 片段 。 

如 何 从 数据 中 发 现 这 样 的 模式 呢 ? 如 果 给 定 了 表示 模式 的 某 种 方式 以 及 这 种 表示 方式 下 
的 所 有 可 能 模式 ， 那 么 最 原始 的 方法 就 是 依次 的 试验 每 一 种 模式 ， 并 观察 它 是 否 在 数据 中 发 
生 ， 以 及 /或 者 从 某 个 意义 上 来 说 它 是 否 显著 。 如 果 可 能 模式 的 数量 很 小 ， 那 么 这 种 方法 或 
许 还 是 可 以 接受 的 ， 但 是 通常 这 种 方法 是 根本 不 可 行 的 。 举 例 来 说 ， 在 超市 的 例子 中 ， 如 果 
我 们 为 所 有 商品 的 每 个 子 集 定义 一 种 模式 ， 那 么 对 于 1 000 件 商品 来 说 就 有 2° 个 模式 。 对 于 
图 像 或 报警 序列 的 情况 ， 潜 在 的 模式 数量 是 无 限 的 。 

如 果 各 个 模式 彼此 间 是 毫 无 关系 的 ， 那 么 我 们 别 无 选择 ， 只 好 使 用 原始 方法 。 但 是 通常 
模式 集合 中 都 存在 大 量 的 结构 ， 我 们 应 该 使 用 这 些 模 式 结构 来 引导 搜索 。 通 常 ， 在 各 个 模式 
之 间 都 存在 泛 化 / 特 化 关系 : 如 果 只 要 模式 1 出 现在 数据 中 ， 模 式 o 也 一 定 出 现在 数据 中 ， 那 
么 模式 o 就 是 模式 有 的 泛 化 〈 更 一 般 2)。 例 如 ， 模 式 “ 至 少 10% (译注 ， 此 处 该 为 5%, R 
者 将 下 面 的 5% 改 为 10% ) 的 顾客 购买 了 酒 ” 是 模式 “至 少 5% 的 顾客 购买 了 酒 和 于 酷 ” 的 
泛 化 。 使 用 这 种 模式 间 的 泛 化 关系 可 以 得 到 一 种 简单 的 算法 来 寻找 出 现在 数据 中 的 所 有 特定 
类 型 的 模式 。 

在 本 章 中 ， 我 们 给 出 了 很 多 从 庞大 的 各 类 数据 集中 寻找 局 部 模式 的 方法 。 我 们 从 非常 简 
单 的 模式 类 型 和 相当 直截了当 的 算法 开始 ， 然 后 讨论 一 些 推广 的 方法 。 本 章 方法 的 基本 思路 
是 通过 对 更 一 般 模式 的 提炼 来 发 现 使 人 感 兴趣 的 模式 。 

模式 和 规则 算法 的 可 伸缩 性 显然 是 一 个 很 重要 的 问题 。 本 章 中 介绍 的 方法 通常 只 对 
数据 集 进行 有 限 次 的 扫描 ， 所 以 这 些 方 法 可 以 很 好 地 适应 庞大 的 数据 集 。 此 外 ， 如 果 我 
们 所 感 兴趣 的 仅 是 适用 于 数据 集中 绝 大 多 数 数据 的 模式 或 规则 ， 那 么 我 们 可 以 利用 采样 
来 提高 效率 。 模 式 在 样本 中 的 频率 和 在 整个 数据 集中 的 频率 会 大 至 相同。 所 以 从 理论 上 
来 说 ， 从 样本 中 寻找 模式 同样 可 以 产生 很 好 的 效果 。 如 果 我 们 所 感 兴趣 的 是 仅 在 数据 集 
中 很 少 出 现 的 模式 ， 例 如 要 在 夜空 上 亿 个 天 体 中 寻找 非常 稀少 的 星体 或 者 星系 ， 那 么 使 








O 译注 ， 本 章 中 我 们 将 generalization 译 为 “ 泛 化 ” more general 译 为 “更 一般”， 一 者 的 含义 是 - 致 的 。 
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用 样本 是 不 够 的 。 
13.2 ”规则 表示 
规则 (rule) 是 由 左 侧 的 命题 (前提 或 者 条 件 ) 和 右 侧 的 结论 组 成 的 ， 例 如 ,“ 如 果 
下 雨 ， 那 么 地 上 会 湿 ”。 左 侧 和 右 侧 都 是 由 对 世界 的 一 种 布尔 描述 〈 真 或 假 ) 组 成 的 。 规 


则 的 含义 是 如 果 左 侧 为 真 ， 那 么 右 侧 也 为 真 。 概 率 规则 (probabilistic rule) 把 这 个 定义 
修改 为 ， 如 果 左 侧 为 真 ， 那 么 右 侧 为 真 的 概率 是 p 一 一 概率 p 就 是 给 定 左 侧 为 真 后 右 侧 


为 真 的 条 件 概率 。 


规则 作为 认 知 建 模 和 人 工 智能 中 的 一 种 知识 表示 方式 有 着 悠久 的 历史 。 它 具有 易于 解释 
的 优点 〈 至 少 对 于 较 小 的 规则 集 来 说 是 这 样 的 )， 而 且 关 于 机 器 学 习 的 研究 已 经 发 现 ， 规 则 
是 从 数据 中 学 习 可 解释 知识 的 一 种 有 用 模式 。 事 实 上 ， 可 以 把 学 习 分 类 树 〈 在 第 6 章 和 第 10 
章 中 讨论 过 ) 看 作 是 学 习 规则 集 的 一 个 特例 : 可 以 把 从 根 到 每 个 叶子 节点 的 条 件 看 作 是 命题 
的 合 取 ， 组 成 规则 的 左 侧 ， 并 把 叶子 节点 的 类 标签 看 作 是 规则 的 右 侧 。 

应 该 注意 到 ， 规 则 具有 固有 的 离散 性 ， 也 就 是 说 ， 规 则 左 侧 和 右 侧 都 是 布尔 陈述 ， 
因此 规则 特别 适 于 对 离散 型 和 范畴 性 变量 建 模 。 因 为 可 以 直接 用 布尔 项 作出 关于 这 些 变 
量 的 陈述 。 当 然 我 们 可 以 把 这 个 框架 扩展 到 取 实 数值 的 变量 ， 方 法 是 把 这 些 变量 量子 化 
成 取 离 散 值 的 量子 〈quanta)， 例 如 ,“ 如 果 X> 10.2， 那 么 Y< 1”( 这 就 是 分 类 树 处 理 实 
数值 变量 的 方法 )。 

通常 ， 规 则 的 左 侧 被 表示 为 简单 的 布尔 函数 〈 例 如 合 取 )， 函 数 的 参数 是 对 各 个 变量 取 
值 情况 的 陈述 〈 例 如 : 4 = al 或 者 Y > 0)。 合 取 的 简洁 性 〈 相 对 其 他 任意 布尔 函数 而 言 ) 使 
合 取 规 则 成 为 迄今 为 止 在 数据 挖掘 中 应 用 最 广泛 的 规则 表示 形式 。 对 于 实数 值 变量 ， 像 X> 1 
AY> 2 这 样 的 规则 左 侧 定 义 了 一 个 左 侧 区 域 ， 区 域 的 边界 平行 于 变量 空间 (X, 7) 的 坐标 轴 ， 
也 就 是 一 个 多 维 “ 箱 ”或 者 超 和 矩形。 当然 我 们 可 以 进行 推广 ， 使 语句 中 可 以 包含 变量 的 任意 
函数 (导致 左 侧 区 域 更 加 复杂 )， 但 这 会 失去 简单 形式 所 具有 的 可 解释 性 。 因 此 ， 为 了 处 理 
规则 学 习 中 的 实数 值 变量 ， 实 践 中 流行 的 是 使 用 简单 的 一 元 阔 值 ， 因 为 这 样 既 简单 又 易于 解 
释 。 


13.3 ”频繁 项 集 和 关联 规则 


13.3.1 简介 


关联 规则 〈 在 第 5 章 和 第 12 章 中 曾 简要 介绍 过 ) 为 数据 挖掘 中 的 规则 模式 提供 了 一 种 
非常 简单 而 又 有 价值 的 描述 形式 。 再 次 考虑 图 13-1 中 的 011 示例 数据 (一 个 “指示 (indicator) 
矩阵 为。 图 中 的 行 代表 关于 某 个 客户 的 交易 《〈 即 被 一 起 购买 的 一 “购物 篮 ” 商 品 )， 列 代表 
商店 中 的 商品 。(i, j) 位 置 上 的 “1” 表 示 客 户 i 购买 了 商品 j,“0” 表 示 这 个 客户 没有 购买 
这 种 商品 。 
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0 1 0 1 

0 1 0 0 

1 1 1 0 

1 1 0 0 
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图 13-1 人 为 编制 的 购物 复数 据 例子 

我 们 所 感 兴趣 的 是 从 这 个 数据 集中 发 现 规则 。 对 于 从 变量 Ao, A, 观察 到 的 0，1 集合 ， 

关联 规则 具有 如 下 形式 ; 

(A, =D^…A(4 =D)= h;, =1 
其 中 对 于 所 有 的 户 1<j<p。 可 以 把 这 样 的 关联 规则 进一步 简化 为 (4 入 …^ A, JS As, 。 
(A, =DA^… 和 ^(4, =D 这 样 的 模式 被 称 为 项 集 (itemset)。 于 是 可 以 把 关联 规则 看 作 形 式 
为 6 = 9 的 规则 。 其 中 9 是 一 个 项 集 模式 ，g 是 仅 包含 一 个 合 取 项 的 项 集 。 我 们 也 可 以 在 规则 
的 右 侧 包含 合 取 式 ， 但 是 为 了 简洁 性 我 们 不 这 么 做 。 

关联 规则 框架 最 初 是 为 很 大 的 稀疏 事务 数据 集 开 发 的 。 这 个 概念 可 以 直接 被 推广 到 取 有 
限 个 数量 值 的 非 二 值 变 量 的 情况 ， 不 过 我 们 在 这 里 不 这 样 做 (为 了 表示 的 简洁 )。 

如 果 给 定 了 项 集 模式 9， 那 么 它 的 频率 /6) 就 是 数据 中 满足 6 的 实例 比例 ”注意 有 时 把 频率 
(6Ag) 称 为 支持 度 。 如 果 给 定 关 联 规则 6 > p， 那 么 它 的 精度 c(6 一 9) (有 时 被 称 为 可 信和 度 ) 
就 是 满足 6 的 行 中 又 满足 V 的 行 的 比例 ， 也 就 是 : 

SOAP) (13.1) 
fr@) 

按照 条 件 概率 的 表示 ， 可 以 把 关联 规则 的 试验 精度 看 作 是 给 定 6 为 真 的 条 件 下 ，9 为 真 
的 条 件 概率 的 极 大 似 然 〈 基 于 频率 的 ) 估计 。 注 意 ， 对 于 很 小 的 样本 ， 我 们 可 以 使 用 后 验 佑 
计 (参见 第 4 章 ) 的 最 大 值 来 得 到 这 一 条 件 概率 的 更 佳 估计 ， 而 不 用 这 种 简单 的 基于 频率 估 
计 。 然 而 ， 因 为 关联 规则 应 用 通常 都 具有 非常 庞大 的 数据 集 ， 而 且 项 集 大 小 的 阐 值 很 大 ， 在 
这 样 的 情况 下 ， 简 单 的 极 大 似 然 估 计 就 足够 了 。 

频繁 项 集 是 非常 简单 的 模式 ， 它 们 可 以 告诉 我 们 数据 集中 经 常 一 起 发 生 的 变量 。 仅 知道 
频繁 项 集 ， 并 没有 得 到 数据 的 大 量 信息 : 它 仅 提 供 了 一 个 很 窗 的 窗口 让 我 们 观察 数据 的 某 一 
方面 。 类 似 地 ， 一 个 关联 规则 则 仅 告诉 我 们 一 个 条 件 概率 ， 并 没有 告诉 我 们 控制 变量 的 联合 
概率 分 布 的 其 余 信息 。 

寻找 频繁 项 集 模式 〈 或 者 说 频繁 集 ) 并 不 难 : 如 果 给 定 了 一 个 频率 阔 值 s， 那 么 就 可 以 
找到 所 有 频繁 的 项 集 模式 , 并 得 到 它们 的 频率 。 在 图 13-1 的 例子 中 , 如 果 把 频率 阔 值 设 为 0.4， 
那么 频繁 集 就 是 {4}、{B8}、{C}、{D}、{AC} 和 {BC}。 由 此 可 以 发 现 规则 4 => CMB = C, 


c@ = 9)= 





(译注 ， 原 书 中 “比例 ”为 “数量 "”， 疑 为 误 )。 
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它们 的 精度 分 别 为 46 = 2/3 、S/5 = 1。 

寻找 关联 规则 的 算法 寻找 满足 频率 和 精度 阐 值 的 所 有 规则。 如 果 频 率 阔 值 太 低 ， 那 么 可 
能 会 有 很 多 频繁 项 集 ， 从 而 有 很 多 规则 。 因 此 ， 寻 找 关 联 规则 仅 是 数据 控 据 工作 的 开始 : 这 
些 规则 中 的 某 些 对 用 户 不 足 一 提 ， 而 有 些 是 非常 有 趣 的 。 利 用 关联 规则 进行 数据 挖掘 的 一 个 
主要 难题 就 是 如 何 从 发 现 的 大 量规 则 中 选择 出 特别 有 趣 的 规则 。 

规则 的 频率 告诉 我 们 规则 适用 的 频繁 程度 。 在 很 多 情况 下 ， 很 低频 率 的 规则 是 没什么 
意义 的 ， 而 且 这 一 假定 事实 上 已 经 融入 了 关联 规则 发 现 问 题 的 定义 之 中 。 关 联 规则 的 精度 
不 一 定 总 能 指示 出 它 的 有 趣 度 。 举 例 来 说 ， 在 医疗 应 用 中 ， 由 怀孕 推出 这 个 患者 是 女性 这 
条 规则 的 精度 为 1， 但 它 并 没有 意义 。 精 度 接 近 1 的 规则 可 能 是 有 趣 的 ， 但 是 精度 接近 0 
的 规则 也 可 能 是 有 趣 的 。 稍 后 我 们 会 回 到 这 个 话题 ， 即 如 何 衡量 规则 是 对 用 户 有 趣 的 。( 在 
第 2 章 中 我 们 讨论 了 数据 质量 的 问题 。 对 于 非常 庞大 的 数据 集合 ， 我 们 很 可 能 发 现 由 怀孕 
推出 这 个 患者 是 女性 这 一 规则 的 精度 小 于 1。 但 这 并 不 意味 着 存在 怀孕 的 男士 ， 而 是 由 于 
数据 不 正确 所 导致 的 。) 

可 以 利用 标准 的 统计 显著 性 检验 技术 来 评估 关联 规则 A > B 的 统计 显著 性 。 也 就 是 分 
析 估 计 概 率 p(B = 114 = 1) 是 否 有 别 于 估计 概率 pB = 1)， 以 及 这 种 差异 是 否 是 偶尔 发 生 的 ， 
这 等 价 于 检验 p(3=11A4=1) 和 p(B=11A =0) 的 差异 (参见 例 4.14)。 

尽管 这 种 检验 是 可 能 的 ， 但 是 利用 显著 性 检验 来 评估 关联 规则 的 质量 是 有 问题 的 ， 原 因 
是 第 4 章 中 所 讨论 的 多 重 检验 问题 。 如 果 我 们 从 数据 中 提取 出 很 多 个 规则 ， 而 且 对 每 个 进行 
显著 性 检验 ， 那 么 很 有 可 能 会 〈 仅 是 由 于 偶然 性 ) 发 现 表现 出 统计 显著 性 的 规则 《即使 数据 
纯粹 是 随机 的 )。 

关联 规则 集合 不 能 给 出 可 以 用 来 系统 推理 的 单一 整体 模型 。 例 如 ， 规 则 没有 提供 预测 未 
知 表 项 的 直接 方式 。 对 于 一 个 变量 ， 不 同 的 规则 可 能 预测 出 不 同 的 值 ， 而 且 根本 不 存在 任何 
核心 结构 〈 就 像 决 策 树 那样 ) 来 决定 哪个 规则 是 有 效 的 ， 

为 了 说 明 这 一 点 ， 假 定 我 们 又 得 到 了 图 13-1 的 一 行 : A=1, B=1, D=1, E=1; Æ 
么 可 以 使 用 从 这 些 数据 得 到 的 规则 集 推论 出 (a) C = 1 的 精度 是 2 /3 (根据 规则 A 之 ©); (dd 
C = 1 的 精度 为 1 (根据 规则 B > C)。 因 此 ， 这 个 规则 集 并 没有 形成 一 种 对 数据 集合 的 全 局 
一 致 描述 。( 不 过 ， 可 以 认为 关联 规则 或 者 频繁 集 的 汇集 为 原始 数据 集 提 供 了 一 种 有 价值 的 
压缩 表示 ， 因 为 可 以 从 这 个 集合 中 检索 出 非常 多 的 有 关 数 据 的 边际 信息 。) 

根据 第 6 章 的 讨论 ， 寻 找 关联 规则 的 模型 结构 是 所 有 可 能 的 合 取 概 率 规 则 。 而 且 可 以 认 
为 评分 函数 是 二 值 的 ， 具 有 足够 精度 和 频率 的 规则 的 分 数 为 1， 所 有 其 他 规则 的 分 数 为 0 〈 仅 
探索 分 数 为 1 的 规则 )。 在 下 一 小 节 中 ， 我 们 将 讨论 寻找 所 有 频繁 集 和 关联 规则 的 搜索 方法 
(对 于 预先 定义 的 频率 和 精度 阔 值 )。 


13.3.2 “寻找 频繁 集 和 关联 规则 


在 这 一 小 节 中 我 们 讨论 从 很 大 的 0/1 矩阵 中 寻找 关联 规则 的 方法 。 对 于 购物 篮 和 文本 文 
档 这 样 的 应 用 ， 典 型 的 输入 数据 可 能 具有 10° 到 108 个 数据 行 ，10? 到 10° 个 变量 。 这 样 的 矩 
阵 经 常 是 非常 稀 朴 的 ， 任 意 给 定 行 中 1 的 数量 是 非常 少 的 ， 比 如 说 ， 算 阵 中 任 一 给 定 元 素 为 
1 的 机 会 是 0.1% 或 更 小 。 

发 现 关联 规则 的 任务 就 是 要 找 出 满足 预先 指定 的 频率 和 精度 标准 的 所 有 规则 。 这 个 任务 
看 起 来 似乎 是 令 人 望 而 生 基 的 ， 因 为 潜在 的 频繁 集 数 量 是 与 变量 数 和 数据 数 呈 指数 关系 的 。 
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举例 来 说 ， 对 于 购物 篮 这样 的 应 用 ， 这 个 数字 是 相当 庞大 的 。 幸 运 的 是 ， 在 实际 数据 集中 ， 
通常 情况 下 频繁 集 数 量 是 比较 小 的 〈 比 如 说 ， 大 多 数 顾客 仅 购买 了 全 部 商品 的 一 个 很 小 子 
集 )。 

如 果 数 据 集 很 大 ， 那 么 主 存 贮 器 将 无 法 容纳 这 些 数 据 。 因 此 理想 方法 读 取 数据 的 次 数 应 
该 尽 可 能 地 少 。 寻 找 关联 规则 的 算法 通常 把 这 个 问题 分 成 两 部 分 :首先 寻找 频繁 集 ， 然 后 再 
用 这 些 频 繁 集 来 组 成 规则 。 

如 果 知道 了 频繁 集 ， 那 么 寻找 关联 规则 是 很 简单 的 。 如 果 规 则 X => B 的 频率 至 少 为 8， 
那么 根据 定义 集合 X 的 频率 至 少 为 *。 因 此 ， 如 果 知 道 了 所 有 的 频繁 集 ， 那 么 我 们 就 可 以 产 
ARTA X 一 四 形式 的 规则 ， 并 通过 对 数据 的 一 次 扫描 计算 出 每 一 个 规则 的 精度 。 

寻找 频繁 集 的 原始 方法 是 计算 所 有 子 集 的 频率 ， 但 是 显然 这 太 慢 了 。 关 键 的 一 点 是 
变量 集合 X 频繁 的 必要 条 件 是 X 的 所 有 子 集 是 频繁 的 。 这 意味 着 我 们 不 必 计 算 具 有 非 
频繁 子 集 的 集合 X 的 频率 。 所 以 ， 我 们 可 以 这 样 寻找 所 有 频繁 集 : 首先 找 出 所 有 由 一 
个 变量 组 成 的 频繁 集 在 知道 了 这 样 的 频繁 集 后 ， 我 们 再 建立 包含 两 个 变量 的 候选 集 
A: BHA, 引 ， 其 中 {4} 和 {B} 都 是 频繁 的 ， 在 建立 了 容量 为 2 的 候选 集合 后 ， 我 们 就 可 
以 通过 观察 数据 来 找 出 真正 的 频繁 集 。 这 样 便 得 到 了 容量 为 2 的 频繁 集 。 依 此 类 推 ， 
我 们 可 以 得 到 容量 为 3 的 候选 集合 ， 然 后 根据 数据 计算 的 它 的 频率 ， 等 等 。 可 以 把 这 
种 方法 归纳 为 : 


i= 0; 
C = {{A} | 2 是 一 个 变量 }; 
while ci PAF do 
扫描 数据 库 ; 
对 于 cj; 中 的 每 一 个 集合 ， 验 证 它 是 否 是 频繁 的 ; 
S LA C; 中 频繁 集 的 汇集 ; 
组 成 候选 集 ; 
令 ci 为 容量 为 了 + 1 的 那些 集合 ， 它 们 的 所 有 子 集 都 是 频繁 的 ; 








end 


这 种 方法 被 称 为 APriori 算法 。 还 有 两 个 问题 需要 解决 ， 如 何 组 成 候选 集合 ? 以 及 如 何 
计算 每 个 候选 集 的 频率 ? 第 一 个 问题 是 很 容易 用 一 种 令 人 满意 的 方式 解决 的 。 假 定 我 们 有 一 
个 频繁 集 的 汇集 L,， 并 且 想 要 找 出 所 有 容量 为 i+ 1 的 可 能 频繁 集 Y， 也 就 是 子 集 都 为 频繁 集 
的 所 有 Y 集合 。 可 以 这 样 来 实现 这 个 目标 : EA 中 找 出 所 有 {U, 让 对 ， 使 U 和 Y 的 联合 
容量 为 i + 1， 然 后 再 验证 这 个 联合 是 否 真 的 为 潜在 候选 集 。 在 L 中 有 少 于 LP 个 的 集合 对 ， 
对 于 其 中 的 每 一 对 我 们 必须 检查 IL 个 其 他 集合 是 否 在 其 中 。 在 最 坏 的 情况 下 ， 复 杂 度 为 Li 
容量 的 立方 。 在 实践 中 ， 这 种 方法 的 实际 运行 时 间 相 对 于 L 容量 是 线性 的 ， 因 为 在 L 中 经 
常 仅 存在 很 少 的 重 盈 元素 。 注 意 ， 候 选集 形成 是 独立 于 实际 数据 记录 数 4 的 。 

对 于 给 定 的 候选 集合 C， 可 以 通过 对 数据 库 的 一 次 扫描 计算 出 它们 的 频率 。 只 要 保 
存 每 个 候选 项 的 计数 ， 当 遇 到 包含 这 个 候选 项 的 记录 时 便 增加 其 计数 。 如 果 检 验 是 以 普 
通 方法 实现 的 ， 那 么 所 需 的 时 间 是 O(IClnap)， 可 以 使 用 其 他 数据 结构 技术 来 提高 这 种 方 
法 的 速度 。 

寻找 频繁 集 所 需 的 总 时 间 是 O(ZEiCinp) 一 一 也 就 是 和 数据 容量 (np) 与 所 有 层次 候选 
集合 数 的 乘积 成 正比 。 这 个 算法 需要 扫描 数据 库 Rk + 1 次 ， 其 中 上 是 最 大 频繁 集 的 元 
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以 上 的 基本 关联 规则 算法 有 很 多 种 变 体 。 这 些 变 体 通常 针对 如 下 三 个 目标 中 的 一 或 多 
个 : 最 小 化 扫描 数据 的 次 数 ， 最 小 化 必须 分 析 的 候选 集 数量 ， 最 小 化 计算 每 个 候选 集 频 率 所 
需 的 时 间 。 

加 速 候 选集 频率 计算 的 一 种 重要 方法 是 使 用 数据 结构 以 便 更 容易 地 发 现 数据 集中 的 
每 一 行 发 生 的 是 CG 中 的 哪个 候选 集 。 一 种 可 能 的 方法 是 用 分 支 因子 为 p (REXO 的 
树 结构 来 组 织 候选 集合 。 对 于 每 个 变量 4， 标 号 为 4 的 树 的 树 根 的 子女 包含 了 第 一 个 变 
量 为 4〈 按 照 变量 的 某 种 顺序 ) 的 那些 候选 集 。 标 号 为 4 的 子女 节点 是 以 递归 方式 建立 
的 。 

另 一 种 加 速 频繁 集 计 算 的 重要 方式 是 使 用 采样 。 因 为 我 们 的 兴趣 所 在 是 要 发 现 描述 大 多 
数 子 群 的 模式 ， 也 就 是 频率 高 于 给 定 阔 值 的 模式 ， 所 以 使 用 样本 来 代替 整个 数据 集 显 然 可 以 
很 好 的 近似 频繁 集 以 及 频繁 集 的 频率 。 也 可 以 使 用 样本 得 到 一 种 大 多 数 情况 下 仅 需 要 扫描 数 
据 两 次 的 方法 。 第 一 次 是 根据 样本 求 出 频繁 集 下 的 汇集 , 使 用 的 阐 值 略 低 于 用 户 给 定 的 盖 值 。 
然后 根据 整个 数据 集 计算 FF 中 每 个 集合 的 频率 ， 这 样 便 可 以 得 到 整个 数据 集 上 的 准确 频繁 
集 ， 但 条 件 是 不 存在 这 样 的 变量 集合 Y: 在 样本 中 它 是 不 频繁 的 ， 但 是 它 的 所 有 子 集 在 整个 
数据 集中 却 是 频繁 的 ， 这 种 情况 下 ， 我 们 必须 再 额外 扫描 一 次 数据 库 。 


13.4 推广 





也 可 以 把 寻找 频繁 出 现 变量 集合 的 方法 应 用 到 其 他 类 型 的 模式 和 数据 ， 因 为 上 面 描述 的 
算法 没有 使 用 频繁 集 模 式 的 任何 特殊 属性 。 我 们 所 使 用 的 就 是 O 频繁 集 的 联合 结构 以 及 
单调 特征 ， 以 便 可 以 快速 地 组 成 候选 模式 ; (2) 快速 验证 一 个 模式 是 否 出 现在 一 行 中 的 能 力 ， 
以 便 可 以 通过 对 数据 的 快速 扫描 计算 出 模式 的 频率 。 

下 面 我 们 以 更 抽象 的 方式 来 表示 这 个 算法 。 假 定 我 们 有 一 类 原子 模式 4， 我 们 的 目标 是 要 
找 出 这 些 原子 模式 中 经 常 出 现 的 模式 的 合 取 。 也 就 是 说 ， 模 式 类 已 是 以 下 所 有 模式 合 取 得 到 的 
集合 : 

GA AM 
其 中 对 于 所 有 的 P， ae Ao 

DANKE d, © , d, 所 构成 的 数据 集合 ， 并 假定 我 们 可 以 验证 模式 @ 相 对 对 象 d 
是 否 为 真 。 合 取 0= w 和 …Aae 已 相对 d 为 真 的 条 件 是 所 有 合 取 项 o 相 对 d 为 真 。 令 o 为 一 
个 阔 值 。 我 们 的 目标 就 是 寻找 那些 频繁 发 生 模式 的 合 取 : 

{oe P| 对 于 至 少 o 个 对 象 de D, OAK} 
对 于 频繁 集 的 情况 ， 原 子 模式 就 是 4 = 1 形式 的 条 件 ， 其 中 4 是 变量 ， 像 4BC 这 样 的 频繁 
集 就 是 A4=1 人 和 人 B= 1 人 和 人 C=1 形式 合 取 的 简短 表示 。 

假定 我 们 可 以 决定 每 个 原子 模式 在 数据 中 出 现 的 次 数 。 那 么 我 们 就 可 以 应 用 上 面 的 算法 
来 从 PP 中 找 出 所 有 出 现 足够 频繁 的 模式 。 我 们 只 要 先 找 出 出 现 足够 频繁 的 所 有 原子 模式 ， 然 
后 建立 可 能 频繁 发 生 的 两 个 原子 模式 的 合 取 ， 再 验证 这 些 合 取 中 哪些 出 现 的 足够 频繁 ， 而 后 
再 建立 容量 为 3 的 合 取 ， 等 等 ， 这 种 方法 的 工作 方式 和 前 面 的 完全 相同 。 如 果 模 式 很 复杂 ， 
那么 我 们 就 必须 做 某 些 灵巧 的 处 理 ， 以 建立 新 的 候选 集 并 检验 模式 的 出 现 情况 。 
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13.5 “寻找 序列 中 的 片段 


在 这 一 节 中 我 们 讨论 寻找 关联 规则 这 一 通用 思想 的 另 一 种 应 用 : 从 序列 中 寻找 片段 
(episodes ). 
如 果 给 定 一 个 事件 类 型 (event types) 的 集合 E， 那 么 一 个 事件 序列 Cevent sequence) s 
就 是 一 系列 序 偶 (e, 0)， 其 中 e e 已 上 是 一 个 整数 ， 代 表 时 间 e 发 生 的 时 间 。 一 -个 片段 ec 是 由 事 
件 类 型 组 成 的 一 段 局 部 状态 (partial order)， 就 像 图 13-2 中 所 示 的 那样 。 可 以 把 片段 表示 为 图 。 


© © 
or a 
a B Y 


图 13-2 片段 w、5 和 7 


如 果 给 定 窗口 宽度 W， 那 么 片段 a 在 序列 5S 中 的 频率 就 是 包含 cx 中 的 事件 类 型 并 以 o 所 描 

述 的 顺序 发 生 的 片段 占 宽度 W 的 比例 。 下 面 我 们 集中 讨论 一 个 任务 : 给 定 事件 序列 *， 片 段 
ae, MORE win, MABE min_ 方 ， 目 标 是 寻找 出 序列 上 发 生 比 例 至 少 为 min fr 的 所 

有 片段 的 汇集 FEC, win, min_fr)。 下 文 给 出 了 计算 频繁 片段 汇集 的 算法 。 

这 种 方法 也 是 建立 在 前 面 的 关联 规则 算法 思想 上 的 ， 从 可 能 的 最 简单 模式 开始 计算 模式 
的 频率 。 利 用 上 一 次 扫描 数据 的 信息 建立 新 的 候选 模式 ， 而 且 如 果 一 个 模式 的 任 一 个 子 模式 
不 够 频繁 ， 那 么 便 不 再 考虑 这 个 模式 。 和 前 面 列 出 的 算法 相 比 最 主要 的 差异 是 片段 的 合 取 没 
有 那么 明显 。 

如 果 片 段 B 的 所 有 节点 也 出 现在 片段 a 中 ， 而 且 B 中 备 节点 间 的 关系 也 体现 在 a 中， 那么 
就 说 B 是 a 的 子 片 段 。 使 用 图 论 的 术语 ， 我 们 可 以 说 B 是 a 的 导出 子 图 。 如 果 B 是 a 的 子 片段 ， 
那么 我 们 将 其 写 为 <o; WRL <a 并 且 Bz o， 那 么 写 为 < a. 


例 13.1 如 果 给 定 一 个 事件 类 型 的 集合 E， 一 个 巨 上 的 时 间 序 列 s AA 段 集 
Ae, FORE win, BUE min_r， 那 么 可 以 用 下 面 的 算法 来 寻找 频繁 片段 的 汇集 
FE(s, win, min_fr). 


C := {a eel lal =1}; 
1 :=1; 
while Cc, 44% do 
/* 扫 描 数 据 库 : */ 
F, := {ae C | fr(@, s, win) >min_fr}; 
l := 1 + 1; 
/* 产 生 候 选项 : */ 
C= {QE sl lal = 1 而 且 对 于 所 有 满足 8B< cx 而 且 181 < 1 的 Bp e ERAB E Fiadh 
End; 
For 所 有 的 1 do 输出 Fy 


这 种 算法 根据 子 片段 的 关系 对 片段 进行 分 层 {广度 优先 } 搜 索 。 这 一 搜索 从 最 一 般 的 片 
段 -一 也 就 是 仅 包含 一 个 事件 的 片段 一 一 开始 。 在 每 一 层 ， 这 个 算法 首先 求 出 候选 片段 的 汇 . 


A 





集 ， 而 后 根据 事件 序列 检查 它们 的 频率 。 

这 个 算法 至 多 扫描 数据 上 +1 次 ， 其 中 k 是 最 大 频繁 片段 的 边 和 项 点数。 每 扫描 一 次 计 
算 ICI 个 片段 的 频率 。 要 计算 一 个 片段 的 频率 需要 在 序列 中 找到 这 个 片段 出 现 的 窗口 。 这 个 
操作 可 以 在 和 序列 长 度 以 及 片段 的 容量 嘻 线性 关系 的 时 间 内 完成 。 因 此 片段 发 现 算法 的 运行 
时 间 是 O(n 》 ，1C 10)， 其 中 中 是 序列 的 长 度 。 


可 以 使 用 类 似 方法 来 寻找 任何 种 类 模式 的 合 取 ， 只 要 存在 的 频繁 模式 不 是 太 多 。 
13.6 选择 发 现 的 模式 和 规则 


13.6.1 简介 


上 一 节 讨 论 了 用 来 寻找 满足 简单 频率 和 精度 标准 的 所 有 规则 的 方法 。 尽 管 这 种 方法 在 很 
多 应 用 中 是 很 有 用 的 ， 但 是 对 于 一 些 简单 而 且 重 要 的 模式 类 来 说 ， 我 们 根本 不 希望 看 到 其 所 
有 的 模式 。 比 如 说 ， 考 虑 一 个 具有 连续 值 变量 的 数据 集 ， 那 么 正如 第 1 章 所 提 到 的 ， 我 们 可 
能 会 看 到 这 样 的 模式 : 

0: WR X>xp WA Y>y 的 概率 为 p， 这 个 规则 的 精度 为 gq 

这 个 规则 很 好 地 描述 了 数据 的 一 个 局 部 特征 。 现 在 的 问题 是 在 数据 中 X 有 大 个 不 同 的 值 ， 
YA h 个 不 同 的 值 ， 那 么 存在 kh 个 潜在 规则 ， 而 且 其 中 很 多 的 频率 都 足以 令 人 感 兴 趣 。 例 
如 ， 从 一 个 包含 变量 年 龄 和 收入 的 数据 集中 我 们 可 能 会 发 现 这 些 规 则 : 

a: 如 果 年 龄 > 40， 那 么 收入 > 62755 WRA 0.34) 

p: 如 果 年龄 > 41， 那 么 收入 > 62855 (BEA 0.33) 

首先 ， 用 户 不 会 愿意 看 到 表达 的 模式 大 体 相 同 的 两 条 规则 。 因 此 ， 即 使 我 们 找到 了 这 样 
的 两 条 规则 ， 我 们 也 应 该 避免 把 它们 都 显示 给 用 户 。 第 二 个 问题 是 在 这 个 例子 中 ， 模 式 w 比 
模式 8 更 具 一 般 性 3， 而且 满 足 w 比 w,: 更 具 一 般 性 的 序列 w%，o%, … 很 长 。 因 此 ， 上 一 节 中 的 
基本 算法 思想 〈 从 最 一 般 的 模式 起 步 ， 观 察 数 据 ， 以 所 有 可 能 的 方式 扩展 够 条 件 的 模式 ) 在 
这 里 不 再 适用 了 ， 因 为 任 一 个 单一 模式 都 有 很 多 说 明 而 且 模 式 空间 很 大 。 

所 有 这 些 意味 着 必须 使 用 频率 标准 外 的 其 他 准则 来 修剪 搜索 到 的 模式 。 通 常 使 用 下 面 的 
两 个 标准 来 进行 修剪 : 

1. 有趣 度 Cinterestingness): 所 发 现 的 模式 是 否 有 足够 的 意义 而 值得 输出 ; 

2， 可 信和 度 〈promise)， 所 发 现 的 模式 是 否 具 有 潜在 的 有 趣 特例 。 

注意 ， 模 式 可 能 是 可 信 的 ， 即 使 它 不 是 有 趣 的 。 一 个 简单 的 例子 是 对 所 有 数据 对 象 都 成 
立 的 任何 规则 : 它 不 是 有 趣 的 ， 但 是 它 的 一 些 特例 可 能 是 有 趣 的 。 可 以 按 不 同 的 方式 利用 模 
式 的 频率 和 精度 以 及 背景 知识 来 量化 有 趣 度 。 


13.6.2 “寻找 模式 的 启发 式 搜索 


假定 我 们 已 经 有 了 定义 模式 有 趣 度 和 可 信 度 的 方法 ， 以 及 修剪 模式 的 方法 .那么 可 以 把 
寻找 有 趣 模式 的 通用 启发 式 算 法 归纳 为 如 下 的 形式 ; 





O 译注 ， 根 据 前 面 的 13.1 节 中 的 定义 ， 说 “a 比 模式 5 更 具 一 般 性 ”不 甚 准 确 ， 但 这 里 是 从 规则 B 为 规则 w 的 “个子 集 这 个 
意义 上 来 说 的 。 
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C = {最 一 般 的 模式 }; 
while C + ® do 
E = 所 有 适当 选择 的 C 元 素 特例 ; 
for q € E do 
如 果 9 满足 有 趣 度 标 准 ， 那 么 输出 q: 
如 果 gq 不 可 和信， 那么 抛弃 gq, ARE a 





End; 
XJ E BME By; 
End; 
C= E; 
End; 


当 把 这 种 算法 实例 化 时 ， 我 们 便 得 到 几 种 熟悉 的 方法 : 

1， 假 定 模式 是 变量 集合 ， 并 且 把 项 集 的 有 趣 度 和 可 信 度 都 定义 为 谓词 fr(X) >a。 不 作 任 
何 额外 的 修剪 ， 那 么 原则 上 讲 这 个 算法 和 寻找 关联 规则 的 算法 是 一 样 的 。 

2. 假定 模式 是 如 下 形式 的 规则 : 

AA AG> ZB 

其 中 和 有 是 X=c、X<c 或 X>c 形 式 的 条 件 ， 其 中 X 为 变量 ，c 为 常数 。 令 有 趣 度 标 准 为 
某 种 意义 上 规则 的 统计 显著 性 ， 并 令 可 信 度 标准 永远 为 真 。 额 外 的 修剪 步骤 仅 保 留 忆 中 的 一 
条 规则 一 一 统计 显著 性 最 高 这 条 规则 。 这 样 我 们 便 得 到 了 一 种 寻找 具有 最 高 统计 显著 性 规则 
的 爬山 搜索 算法 。( 当 然 ， 不 能 用 一 般 意义 来 解释 这 里 的 显著 性 ， 因 为 其 中 包含 了 很 多 相互 
关联 的 检验 。) 
” 3. 假定 有 趣 度 标准 为 规则 具有 统计 显著 性 ， 而 且 可 信和 度 标准 永远 为 真 ， 额 外 的 修剪 步 
又 保留 中 显著 性 最 高 的 条 规则 。 当 KK = 1 时 是 上 面 的 情况 ;当天 为 任意 值 时 便 得 到 束 
状 搜索 (beam search) 算法。 


13.6.3 ”有 趣 度 标准 


在 前 一 小 节 中 我 们 提 到 了 衡量 规则 有 趣 度 的 尺度 。 如 果 给 定 一 个 规则 6 > pg， 那么 有 很 
多 种 方式 来 定义 它 的 有 趣 度 。 通 常 ， 模 式 9 Mo 中 所 引用 变量 的 背景 知识 对 规则 有 趣 度 有 很 
大 的 影响 。 例 如 ， 在 信用 评估 数据 集中 ， 我 们 可 能 预先 确定 把 出 生 月 份 和 信用 等 级 联系 起 来 
的 规则 不 是 有 趣 的 《有 意义 的 )。 再 如 ， 在 购物 篮 数据 库 中 ， 我 们 可 能 说 规则 的 有 趣 度 和 规 
则 频率 与 产品 价格 的 乘积 直接 成 比例 ， 也 就 是 说 ， 我 们 或 许 对 和 昂贵 商品 相 联 系 的 高 频率 规 
则 更 感 兴趣 。 一 般 来 讲 ， 没 有 一 种 单一 的 方法 来 把 背景 知识 自动 地 考虑 进来 ， 所 以 规则 发 现 
系统 必须 让 用 户 可 以 很 容易 地 使 用 这 些 针 对 应 用 〈application-dependent) 的 有 趣 度 标准 。 

有 趣 度 的 纯 统 计 标 准 更 容易 使 用 ， 因 为 它 是 独立 于 具体 应 用 的 。 或 许 这样 的 最 简单 标准 就 
是 通过 建立 一 个 2x2 的 列 联 表格 ,9 Alo 的 出 现 与 否 作为 变量 ， 然 后 统计 四 种 不 同 组 合 的 频率 。 


| e- > 
0 r(0 ^ Ø) r(O A 7@) 


根据 这 张 表 中 的 数据 我 们 可 以 计算 9 Ho 间 不 同类 型 的 关联 尺度 ， 比 如 卡 方 分 数 。 评 
价 规则 6 一 gq 有趣 度 的 一 种 特别 有 价值 的 尺度 是 三 尺度 (J-measure)， 其 定义 为 : 
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J(0 = 9) = p(@)| pele) log ——— +- 19))1 
p) =p | g DO) p(¢10))log T- pO) 


这 里 p(ol6 ) 是 试验 观察 到 的 规则 可 信 度 〈 精 度 )，p(6) 和 plo ) 分 别 是 试验 观察 到 的 8 
和 gq 的 边际 概率 。 可 以 把 这 个 尺度 看 作 是 有 和 没有 事件 8 这 一 条 件 时 p 所 定义 的 二 值 变 
HEZA. AA p(@ ) 指 出 了 这 个 规则 所 适用 的 广度 。 其 他 因数 衡量 了 以 下 两 种 情况 下 
我 们 关于 g 的 知识 有 多 大 差异 : 仅 知 道 边际 概率 p(9 ); 和 知道 条 件 概 率 polo ). J-RE 
县 有 相对 特 化 表现 很 好 的 优点 ， 也 就 是 说 ， 有 可 能 证 明 给 定 规则 的 特 化 的 -尺度 值 的 边 
界 。 

实践 中 已 经 发 现 不 同 有 趣 度 尺 度 所 得 到 的 模式 大 致 是 相同 的 ， 只 要 评估 函数 符合 一 些 基 
本 特征 《〈 比 如 精度 保持 不 变 时 ， 分 数 随 模式 频率 的 上 升 单调 上 升 )。 第 7 章 也 讨论 了 与 模式 
有 趣 度 相关 的 一 般 问题 。 


13.7 ”从 局 部 模式 到 全 局 模型 


如 果 给 定 了 出 现在 数据 中 的 一 系列 模式 ， 那 么 有 没有 办 法 利用 这 些 模式 来 组 成 全 局 
模型 呢 ? 这 一 节 我 们 简要 讨论 两 种 针对 这 一 目标 的 方法 。 第 一 种 方法 组 成 一 个 决策 列 
表 或 者 规则 集合 来 完成 分 类 任务 ， 第 二 种 方法 使 用 模式 的 频率 构建 一 个 近似 的 概率 分 
布 。 

简单 起 见 , 令 B 为 一 个 二 值 变量 , 并 假定 我 们 已 经 发 现 了 一 系列 形式 为 8 之 8= 1 An, => 
8B = 0 的 规则 。 那 么 我 们 该 如 何 组 成 一 个 决策 列表 以 找 出 或 者 说 预测 出 B 的 值 呢 ? (变量 B 
的 决策 列表 是 形式 为 6 > B= 6; 的 规则 的 有 序列 表 ， 其 中 是 一 个 模式 ，b; 是 B 的 一 个 可 能 
值 . 可 以 把 这 样 的 决策 列表 的 精度 定义 为 这 个 列表 正确 预测 出 的 行 的 比例 。 可 以 考虑 规则 
的 所 有 可 能 排列 ， 并 检查 每 种 情况 所 产生 的 最 优 解 ， 这 样 至 少 在 理论 上 可 以 构建 出 最 优 的 决 
策 列表 。 然 而 这 样 做 所 需 的 时 间 是 规则 数 的 指数 级 ， 一 种 比较 好 的 近似 方法 是 把 这 个 问题 看 
作 是 一 个 针对 任务 的 加 权 集 合 ， 然 后 使 用 “ 仿 禁 ”搜索 算法 。 

上 面 是 使 用 局 部 模式 来 获取 整个 数据 集 信 息 的 一 种 方法 ， 下 面 介绍 另 一 种 。 如 果 我 们 
知道 了 对 于 = 1，…, k BRO 的 频率 为 fO BARRARE A, e, A 的 联合 分 
布 了 解 多 少 了 呢 ? 原则 上 讲 ， 观 察 结 果 fr(9) 可 能 是 任何 满足 模式 频率 的 分 布 1 所 产生 的 。 
然而 ， 要 采用 的 合理 模型 不 应 该 对 分 布 的 一 般 特征 作出 任何 更 进一步 的 假定 (因为 不 知道 
任何 进一步 的 信息 )。 这 就 要 求 这 个 分 布 使 粮 最 大 化 ， 并 符合 已 经 观察 到 的 频率 模式 。 利 
用 和 迭代 比例 (proportional) 算法 可 以 高 效 地 构建 这 样 的 分 布 ， 简 单 来 说 ， 算法 是 按 如 下 方 
式 运转 的 。 从 针对 变量 A 的 一 个 随机 分 布 p(X) 开始 ， 然后 施加 每 个 模式 6 的 频率 约束 。 这 
个 过 程 是 这 样 实现 的 ， 先 对 6 为 真 状态 时 的 p 求 和 ， 然 后 对 这 些 概 率 进行 缩放 使 得 到 的 p 
的 更 新 版 本 使 8 能 满足 fr(9) 尺 度 集合 。 依 次 对 每 个 模式 进行 这 种 更 新 ， 直 到 观察 到 的 模式 
频率 和 由 p 给 出 的 一 致 。 这 种 方法 可 以 在 相当 广泛 的 条 件 下 收敛， 因此 它 的 应 用 很 广泛 ， 
例如 统计 文本 建 模 (statistical text modeling)。 这 种 方法 的 不 足 是 《至 少 在 直接 应 用 的 情况 
下 ) 它 需 要 构建 联合 分 布 的 每 个 状态 ， 使 得 使 用 该 方法 的 空间 和 时 间 复 杂 度 都 随 变 量 数 的 
EREE. 
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13.8 ”预测 规则 归纳 


到 目前 为 止 本 章 主 要 集中 在 关联 规则 和 相似 规则 形式 上 。 但 本 章 最 前 面 是 以 规则 的 一 般 
定义 开始 的 ， 现 在 我 们 返回 到 这 个 框架 。 问 忆 一 下 ， 我 们 可 以 把 分 类 树 的 每 个 分 支 解释 为 一 
条 规则 ， 从 根 到 叶子 的 路 径 上 的 内 部 节点 定义 了 规则 左 侧 的 合 取 项 ， 赋 给 每 个 叶子 的 分 类 标 
签 定义 了 规则 右 侧 。 对 于 分 类 问题 来 说 ， 规 则 右 侧 是 C = cx 的 形式 ， 也 就 是 预测 分 类 变量 C 
等 于 某 一 特定 值 ck。 

从 而 ， 我 们 可 以 认为 分 类 树 是 由 一 个 规则 集合 构成 的 。 这 个 集合 县 有 一 些 非常 特别 的 属 
性 一 一 也 就 是 说 ， 它 形成 了 一 种 对 输入 变量 空间 的 互 斥 不 重 县 ) 而 且 完 全 的 划分 。 根 据 这 
种 方式 ， 任 何 一 个 观察 x 会 被 且 仅 被 一 个 规则 也 就 是 定义 这 个 点 所 在 区 域 的 那个 分 支 ) 分 
类 。 我 们 说 这 个 规则 集 以 这 种 方式 “覆盖 ”了 输入 空间 。 

我 们 发 现 有 必要 考虑 比 树 结构 更 一 般 的 规则 集 ， 因 为 (举例 来 说 ) 树 结构 在 表示 析 
取 布 尔 函 数 时 的 效率 特别 低 。 比 如 说 ， 考 虑 以 下 析 取 映射 : CA=1AB=1) v (D=1A 
E=1) =>C=1 (并 且 和 否则 C = 0)。 我 们 可 以 使 用 两 个 规则 : (A4=1 和 ^8=1) >CH=1M 
(D=1 入 E=1) 全 C=1 非 常 高 效 地 表示 出 这 个 映射 。 但 是 如 果 用 树 表示 同一 个 映射 就 
必须 为 每 个 分 支 〈 比 如 A) 引入 一 个 专门 的 根 节 点 变量 ， 即 使 这 个 变量 仅 和 该 映射 的 某 
部 分 有 关 。 

一 种 产生 规则 集 的 技术 是 先 建立 分 类 树 〈 使 用 第 10 章 介绍 的 任 一 种 技术 )， 然 后 把 每 个 
分 支 看 作 是 一 条 单独 的 候选 规则 。 规 则 归纳 算法 依次 访问 每 一 条 这 样 的 规则 ， 判 断 每 个 规则 
左 侧 的 条 件 是 否 影响 该 规则 对 于 它 所 “覆盖 ”数据 的 精度 。 举 例 来 说 ， 我 们 可 以 从 规则 的 左 
侧 删 除 一 个 条 件 ， 然 后 评定 规则 的 精度 〈 等 价 于 估计 出 的 条 件 概率 ) 是 否 提 高 了 或 者 实际 
上 没有 显著 的 变化 )。 如 果 提 高 了 或 没有 显示 出 任何 变化 ， 那 么 可 以 认为 这 个 条 件 是 不 必要 
的 ， 可 以 将 其 删除 以 得 到 一 个 更 简单 而 且 可 能 更 准确 的 规则 。 重 复 这 个 过 程 ， 直 到 所 有 规则 
中 的 所 有 条 件 都 被 分 析 过 了 。 实 践 中 经 常 发 现 这 种 方法 可 以 消除 很 大 一 部 分 初始 的 规则 条 
件 ， 这 些 条 件 是 在 增长 树 的 过 程 中 由 于 它们 对 改善 模型 的 平均 贡献 而 被 引入 的 ， 但 是 对 某 个 
特定 分 支 来 说 是 不 必要 的 。 

然后 便 可 以 使 用 按 这 种 方式 产生 的 最 终 规则 集合 来 完成 分 类 任务 。 因 为 原始 的 规则 集 是 
以 一 种 不 重 登 方式 “ 灸 嵌 ” 在 输入 空间 上 的 ， 而 且 我 们 已 经 删除 了 定义 这 些 不 重 玖 区 域 的 一 
些 条 件 ， 所 以 区 域 的 边界 已 经 被 扩大 了 〈 规 则 已 经 被 泛 化 了 )， 因 此 这 些 区 域 现 在 有 可 能 重 
各 了 。 这 样 就 可 能 有 两 条 如 下 形式 的 规则 ; ASI > C=1MB=1>5C=1. 那么 一 个 很 自 
然 的 问题 是 : 我 们 该 如 何 使 用 这 两 条 规则 来 分 类 一 个 新 的 观察 向 量 x, x 中 A 和 8 都 等 于 1? 
一 种 方法 是 把 这 两 个 规则 看 作 是 对 整个 联合 分 布 ph4，B，C) 的 约束 ， 然 后 利用 本 章 13.7 节 中 
REKED EEH p(C = 114 = 1, B =1) 的 估计 。 然 而 由 于 业 最 大 化 方法 在 计算 方面 多 少 
有 些 复杂 ， 所 以 实践 中 往往 是 使 用 一 些 更 简单 的 技术 。 比 如 ， 我 们 可 以 找 出 给 定 观 察 向 量 x 
所 引发 的 所 有 规则 (也 就 是 条 件 被 x 满足 的 规则 )。 如 果 找 到 的 规则 多 于 1， 那 么 只 要 挑 出 
条 件 概 率 最 大 的 一 个 就 可 以 了 。 如 果 根 本 没有 引发 任何 规则 ， 那 么 就 选择 最 可 能 的 验 前 分 类 
值 。 也 可 以 使 用 其 他 更 复杂 的 模式 ， 比 如 把 规则 组 织 为 有 序 的 决策 列表 ， 或 者 在 多 个 规则 间 
进行 “投票 ”或 平均 。 

读者 可 能 会 问 ， 为 什么 要 从 分 类 树 开始 然后 再 产生 规则 ， 而 不 是 直接 搜索 规则 呢 ? 分 类 





树 的 一 个 优点 是 它 可 以 在 建立 树 的 阶段 ， 自 动 的 以 一 种 相当 简单 的 而 且 计算 效率 很 高 的 方式 
把 任何 实数 值 变量 量子 化 (尽管 这 些 量子 对 于 最 终 规 则 集 的 所 有 环境 来 说 不 一 定 都 是 最 优 
的 )。 另 一 个 优点 是 实现 技术 简单 ， 有 很 多 高 效 的 技术 可 以 用 来 产生 树 (正如 第 10 章 中 所 讨 
论 的 ， 不 论 是 对 于 数据 位 于 主 存储 器 的 情况 ， 还 是 数据 位 于 次 存储 器 的 情况 )， 而 且 ， 加 入 
规则 选择 组 件 作为 “后 处 理 ” 步 又 是 相当 简单 直接 的 。 

不 过 ， 根 据 树 来 产生 规则 存在 偏向 〈bias)， 因 而 ， 在 机 器 学 习 和 数据 挖掘 中 也 已 经 有 很 
多 算法 直接 搜索 规则 ， 特 别 是 对 于 离散 值 数据 的 情况 。 当 然 ， 应 该 再 一 次 指出 ， 可 能 的 合 取 
规则 数量 是 相当 庞大 的 ， 对 于 每 个 变量 取 m 个 值 的 p 个 变量 来 说 是 Om) 因此， 在 搜索 这 
样 的 最 优 规则 集合 时 《或 者 甚至 是 仅 搜索 最 佳 的 唯一 规则 )， 我 们 通常 要 求助 于 某 种 形式 的 
启发 式 搜索 方法 〈 就 像 在 13.6 节 寻 找 有 趣 规则 集合 中 所 指出 的 那样 做 ?。 

这 里 要 指出 ， 在 分 类 的 情况 下 ， 应 该 把 “最 优 ” 定 义 为 规则 集 对 于 新 数据 的 平均 精度 最 
高 (或 者 ， 当 涉及 分 类 成 本 时 使 平均 损失 最 低 )。 就 像 分 类 树 的 情况 一 样 ， 相 对 于 训练 数据 
的 分 类 精度 不 必 是 最 优 的 。 举 例 来 说 ， 我 们 可 以 为 每 个 训练 实例 定义 一 个 包含 这 个 实例 中 出 
现 的 所 有 变量 的 特殊 规则 。 这 样 的 特殊 规则 对 于 训练 数据 的 精度 很 高 《如 果 包 含 相同 变量 什 
的 所 有 实例 都 属于 相同 的 分 类 ， 那 么 精度 甚至 可 以 达到 1)， 但 是 泛 化 精度 会 很 低 ， 因 为 它 
过 于 特殊 。 因 此 ， 实 践 中 经 常 使 用 的 评分 函数 并 非 单单 考察 精度 ， 特 别 是 用 于 选择 向 现 有 规 
则 集中 加 入 的 下 一 个 规则 的 评分 函数 ， 而 是 《比如 ) 在 规则 的 履 善 面 〈 左 侧 表达 式 的 概率 ) 
和 规则 的 精度 间 做 某 种 折 中 ， 就 像 前 面 介绍 的 /尺度 那样 。 

已 经 定义 了 合适 的 评分 函数 ， 那 么 下 一 个 问题 就 是 如 何 搜索 规则 集 并 在 训练 数据 上 优化 
这 个 评分 函数 。 许 多 规则 归纳 算法 使 用 的 是 种 “一 般 到 特殊 ”形式 的 启发 ， 和 前 面 描述 的 搜 
索 有 趣 规则 的 一 般 形 式 形 同 ， 所 不 同 的 就 是 现在 我 们 把 有 趣 度 函数 替换 为 一 种 和 分 类 有 关 的 
函数 。 这 些 算法 从 包含 尽 可 能 最 一 般 的 规则 《比如 规则 的 左 侧 为 空 ) 集合 开始 ， 然 后 通过 不 
断 探 索 目前 集合 中 规则 的 更 特殊 版 本 ， 以 一 种 贪 禁 的 方式 向 这 个 集合 中 加 入 新 的 规则 。 可 以 
把 这 个 过 程 看 作 是 对 所 有 子 集 空间 的 一 种 系统 搜索 ， 从 空 集 合 开 始 ， 并 使 用 一 种 每 次 仅 加 入 
一 个 条 件 的 算 子 。 大 量 的 搜索 技术 都 可 以 在 这 里 使 用 ， 包 括 第 8 章 中 讨论 的 所 有 系统 启发 搜 
索 技 术 ( 比 如 束 状 搜索 )。 也 可 以 使 用 相反 的 启发 策略 ， 即 从 最 特殊 的 集合 开始 然后 进行 泛 
化 ， 不 过 从 计算 的 角度 来 看 这 样 做 往往 会 更 复杂 一 些 ， 因 为 从 什么 样 的 规则 集 开始 不 如 前 面 
那样 明显 。 对 于 实数 值 数据 ， 我 们 可 以 把 每 个 实数 值 变 量 预先 量子 化 为 多 个 柱 位 bins)〈 比 
如 对 每 个 变量 使 用 聚 类 算法 )， 也 可 以 在 搜索 规则 的 同时 进行 量子 化 。 后 一 种 方法 所 需 的 运 
算 特 别 高 而 且 不 太 容易 实现 ， 按 这 种 方式 运转 的 一 种 有 趣 算法 是 PRIM 算法 (Friedman and 
Fisher，(1999))， 该 算法 从 每 个 变量 的 完整 数据 域 开始 逐步 “收缩 ”规则 区 域 。 

当然 ， 在 这 两 种 技术 〈 一 种 搜索 的 规则 空间 更 多 ， 因 而 对 计算 和 内 存 的 需求 更 高 ， 另 一 
种 更 简单 ， 仅 搜索 空间 的 一 个 较 小 部 分 》 间 存在 着 折 中 。 实 践 中 ， 就 像 分 类 树 中 那样 的 使 用 
简单 算 子 的 贪 禁 搜索 技术 很 多 时 候 都 表现 的 几乎 和 复杂 方法 一 样 好 ， 因 而 非常 流行 。 和 分 类 
树 的 情况 一 样 ， 也 存在 何 时 停止 向 规则 集中 加 入 规则 的 问题 〈 决 定 模型 应 该 复杂 到 什么 程度 
的 常见 问题 一 一 这 里 可 以 把 规则 集 解释 为 数据 “模型 ”)。 在 估计 规则 集 的 真实 预测 精度 时 交 
又 验证 的 技术 非常 有 用 ， 但 是 运算 量 也 可 能 非常 大 ， 尤 其 是 当 需 要 在 规则 的 不 同 搜索 阶段 进 
行 重复 验证 时 。 

下 面 介绍 几 种 对 基本 分 类 模式 的 著名 扩展 ， 以 总 结 我 们 对 预测 规则 的 讨论 。 第 一 种 扩展 
是 这 样 的 ， 就 像 把 分 类 树 的 思想 扩展 到 回归 树 一 样 ， 我 们 也 可 以 进行 一 种 基于 规则 的 回归 。 
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规则 的 左 侧 条 件 定义 了 输入 空间 中 一 个 特定 区 域 ， 对 于 这 个 给 定 区 域 ， 我 们 可 以 估计 出 该 区 
域 数 据 的 局 部 回归 模型 (可 能 非常 简单 ， 乃 至 是 (比如 说 ) 一 个 最 佳 拟 合 的 常量 )。 如 果 规 
则 是 不 重 双 的， 那么 我 们 便 得 到 一 个 分 片 的 局 部 回归 曲面 ， 如 果 规 则 是 重 营 的 ， 那 么 我 们 必 
须 决定 如 何 组 合 不 同 规则 来 对 这 个 重合 区 域 作出 预测 。 基 于 规则 的 回归 框架 有 一 个 特别 的 优 
点 一 一 易于 解释 ， 尤 其 是 对 于 高 维 的 问题 ， 因 为 大 多 数 情况 下 仅 有 一 小 部 分 变量 包含 在 这 个 
规则 中 。 

对 基本 规则 归纳 模式 的 第 二 种 值得 注意 的 扩展 是 使 用 关系 逻辑 作为 规则 的 基础 。 对 这 个 
话题 的 深入 讨论 超出 了 本 书 的 范围 ， 其 根本 思想 就 是 把 命题 逻辑 陈述 (“变量 = 值 ”) 的 概念 
推广 到 所 谓 的 一 阶 关系 逻辑 陈述 ， 比 如 “Parent(X, Y) ^ Male(X) = Father(X, Y)”. 原则 上 讲 ， 
这 种 类 型 规则 的 学 习 是 相当 强大 的 ， 因 为 它 允 许 使 用 丰富 得 多 的 表示 语言 来 描述 数据 。 关 系 
陈述 的 命题 版 本 通常 非常 笔 拙 而 且 可 能 非常 大 )， 因 为 在 (更 简单 的 ) 命题 框架 下 不 存在 
对 象 间 关 系 的 概念 。 当 然 关系 逻辑 表示 的 特殊 表示 能 力 是 有 代价 的 ， 这 一 点 既 体 现在 使 用 这 
种 规则 进行 推理 的 时 候 ， 也 体现 在 从 数据 中 学 习 这 些 规则 的 时 候 。 目 前 已 经 开发 出 了 学 习 关 
系 规则 的 算法 〈 对 应 的 主题 叫 “ 归 纳 逻 辑 编程 〈inductive logic programming)”)， 得 到 的 一 
些 规则 是 很 有 效 的 ， 不 过 主要 是 基于 逻辑 而 不 是 基于 概率 来 表示 数据 。 








13.9 补充 读物 


Agrawal et al.(1993) 介 绍 了 关联 规则 问题 . Apriori 算法 应 主要 归功 于 Agrawal and Srikant 
(1994), Mannila et al. (1994) 以 及 Agrawal et al. (1996)。 关 于 寻找 关联 规则 的 不 同 算法 
的 文献 非常 多 ， 比 如 Agrawal, Aggarwal and Prasad (即将 出 版 )，Brin et al. (1998), Fukudaet 
al. (1996), Han and Fu (1995), Holsheimer et al. (1995), Savasere et al. (1995), Srikant and 
Agrawal (1995, 1996), Toivonen (1996) 以 及 Webb (2000). Klemettinen et al. (1994) 以 
及 Silberschatz and Tuzhilin (1996) 中 谈 到 了 关联 规则 的 后 期 处 理 。Mannila《〈《1996)，Mannila 
(1997), Meo et al.( 1996), Imielinski et al. (1999), Imielinski and Virmani (1999) 以 及 Sarawagi 
et al. (1998) 中 讨论 了 如 何 把 关联 规则 发 现 集成 到 数据 库 系统 中 的 问题 。Mannila et al. (1997) 
介绍 了 在 序列 中 发 现 片段 的 算法 。 

可 以 说 关于 关联 规则 发 现 算法 的 论文 要 远 远 多 于 关于 关联 规则 应 用 的 论文 ， 从 这 一 点 来 
看 ， 目 前 我 们 还 不 是 很 清楚 关联 规则 除了 探索 性 数据 分 析 外 还 有 哪些 主要 应 用 。 不 过 关联 规 
则 在 零售 业 中 有 一 个 有 趣 的 应 用 一 一 交叉 销售 ， 参 见 Brijs et al. (2000) 以 及 Lawrence et al. 
(2001). 

Smyth and Goodman (1992〉 中 讨论 了 规则 的 有 趣 度 ， 其 中 也 介绍 了 J 尺度 。Silberschatz 
and Tuzhilin (1996) 也 讨论 了 J 尺度 。 

在 机 器 学 习 的 文献 中 已 经 提出 了 大 量 不 同 的 归纳 规则 算法 ， 这 些 算法 间 的 差异 主要 是 如 
何 进行 搜索 的 细节 。C4.5 规则 算法 是 根据 分 类 树 推导 规则 的 最 著名 方法 Quinlan (1987, 
1993)). CN2 算法 (Clark and Niblett (1989)) 使 用 一 种 基于 入 的 尺度 通过 束 状 搜 索 方式 来 
选择 规则 。 其 他 更 新 的 规则 归纳 算法 (具有 精确 分 类 庞大 数据 集 的 能 力 ) 包括 RL (Clearwater 
and Stern (1991)) 算法 ,强制 (Brute) 算法 (Segal and Etzioni (1994)) 以 及 撕 裂 咒 (Ripper) 
EIEC Cohen( 1995) EAA LFE BER FEZ, BR A RF RISE 算法 (Domingos 
(1996)) 是 利用 特殊 到 一 般 启 发 的 规则 归纳 算法 的 一 个 有 趣 例子 。Holte (1993) 介绍 了 一 








项 有 趣 的 研究 ， 非 常 简 单 的 分 类 规则 模型 提供 了 和 更 复杂 的 著名 分 类 器 大 体 一 样 的 性 能 。 
Aronis and Provost (1997) 介绍 了 如 何 实现 用 于 海量 数据 集 的 高 效 规划 归纳 算法 的 一 些 实践 
技巧 。 

Friedman and Fisher (1999) 介绍 了 高 维 数据 中 的 “bump-hunting” 算 法 框架 ， 该 框架 在 
很 多 方面 是 与 众 不 同 的 : 它 使 用 了 一 种 “耐心 的 (patient)” 搜 索 策 略 而 不 是 普遍 使 用 的 纯 
粹 贪 楚 搜 索 策 略 ， 它 使 用 的 是 通用 的 函数 近似 框架 ， 既 允许 实数 值 的 又 允许 分 类 值 的 目标 变 
量 ; 它 是 从 统计 角度 出 发 的 。Weiss and Indurkhya (1993) 中 讨论 了 基于 规则 回归 ，RuleQuest 
(2000) 的 商业 软件 包 ( 被 称 为 Cubist) 也 包含 这 个 内 容 。 

Quinlan 的 FOIL 算法 〈1990) 是 最 早 的 关系 规则 归纳 算法 之 一 。 一 些 教 材 归纳 了 有 关 
关系 规则 学 习 《〈 又 被 称 为 归纳 逻辑 编程 ) 的 最 新 成 果 ， 例 如 Lavrac and Dzeroski (1994) 以 

及 Muggleton (1995). 


ESE OE 


第 14 章 根据 内 容 检索 


141 简介 


在 数据 库 框架 下 ， 传 统 的 查询 概念 被 定义 为 ， 查 询 是 一 种 返回 精确 匹配 指定 要 求 的 记录 
集合 (或 表 项 集合 ) 的 操作 。 举 例 来 说 ， 在 一 个 人 员 信 息 数 据 库 中 查询 “[level = MANAGER] 
AND [age < 30] ”返回 的 结果 是 具有 重要 职务 的 年 轻 雇 员 列 表 。 正 如 第 12 章 所 讨论 的 ， 传 统 
数据 库 管理 系统 的 设计 目标 之 一 就 是 高 效 地 回答 这 种 精确 查询 。 

然而 ， 在 很 多 情况 下 ， 尤 其 是 数据 分 析 中 ， 我 们 所 感 兴趣 的 是 更 一 般 的 但 不 很 精确 的 查 
询 。 考 虑 一 个 医疗 方面 的 例子 ， 假 定 我 们 知道 了 一 个 患者 的 人 口 统计 学 信息 (比如 年 龄 性 别 
等 等 )、 血 液 和 其 他 常规 检查 的 结果 ， 以 及 生物 医学 方面 的 时 间 序 列 和 X- 光 图 像 。 为 了 辅助 
对 这 个 患者 进行 诊断 ， 医 生 可 能 希望 知道 在 这 个 医院 的 数据 库 中 是 否 包含 类 似 的 患者 ， 如 果 
有 类 似 的 患者 ， 那 么 他 们 的 诊断 、 治 疗 方法 和 最 终结 果 如 何 ? 这 个 问题 的 难点 在 于 如 何 根据 
不 同 的 数据 类 型 〈 在 这 个 例子 中 有 多 元 变量 、 时 间 序 列 和 图 像 数 据 ) 来 判断 各 个 患者 间 的 相 
似 性 。 在 这 里 ， 直 接 使 用 精确 匹配 的 概念 是 行 不 通 的 ， 因 为 几乎 不 可 能 找到 和 这 个 患者 的 各 
项 指标 均 完 全 匹配 的 其 他 患者 。 l 

本 章 将 讨论 具有 这 种 特征 的 问题 ， 特 别 是 要 在 数据 集中 执行 如 下 形式 的 查询 而 必须 解决 
的 各 种 技术 问题 : 

在 数据 库 中 找 出 和 指定 查询 或 指定 对 象 最 相似 的 上 个 对 象 。 

下 面 是 这 种 查询 的 一 些 例 子 : 

@ 对 道琼斯 指数 的 历史 记录 进行 搜索 寻找 一 个 特定 时 间 序 列 模式 的 出 现 情况 。 

o 对 地 球 卫星 图 像 进行 搜索 ， 找 出 可 以 证 明 中 美洲 最 近 发 生 了 火山 喷发 的 所 有 图 像 。 

@ 搜索 互联 网 ， 找 出 评论 赫尔辛基 市 内 饭店 的 在 线 文档 。 

可 以 把 这 种 形式 的 检索 看 作 是 交互 式 的 数据 挖掘 ， 因 为 用 户 直 接 参与 了 探索 数据 集 的 过 
程 一 一 指定 查询 并 解释 匹配 过 程 得 到 的 结果 。 这 与 前 面 各 章 中 讨论 的 预测 和 描述 形式 的 数据 
挖掘 形成 了 对 比 ， 在 预测 和 描述 建 模 中 人 的 判断 作用 往往 没有 这 么 重要 。 

如 果 数 据 集 是 根据 内 容 批注 的 〈 比 如 说 ， 图 像 数 据 库 已 经 经 过 了 人 工 浏 览 并 根据 可 视 的 
内 容 作 了 索引 )， 那 么 检索 问题 就 簿 化 为 标准 的 数据 库 索 引 问题 ， 就 像 第 12 章 中 所 讨论 的 那 
样 。 然 而 在 本 章 中 ， 我 们 要 考虑 的 是 实践 中 更 一 般 的 情况 一 一 数据 库 没 有 被 预先 索引 。 我 们 
仅 有 要 寻找 目标 一 一 也 就 是 查询 模式 (query paten) 0 一 一 的 一 个 实例 。 根 据 这 个 查询 模式 
Q， 我 们 要 推论 出 数据 集中 哪些 其 他 对 和 象 和 它 最 相近 。 这 种 检索 方法 被 称 为 根据 内 容 检索 
(retrieval by content)， 它 的 最 著名 应 用 是 在 文本 中 检索 。 在 文本 检索 中 ， 查 询 模 式 C 通常 
是 很 短 的 (查询 词汇 列表 )， 然 后 在 很 大 的 文档 集合 中 匹配 这 个 模式 。 

本 章 中 我 们 将 主要 讨论 文本 文档 检索 ， 因 为 它 应 用 最 广 而 且 是 这 种 思想 的 最 成 熟 应 用 。 
不 过 我 们 也 将 讨论 如 何 把 这 些 方法 推广 到 图 像 和 时 间 序 列 检索 应 用 中 。 可 以 把 这 类 问题 归纳 
为 三 个 基本 组 成 部 分 ， 也 就 是 : 

@ 如 何 定义 对 象 间 的 相似 尺度 ; 














@ 如 何 实现 高 计算 效率 的 搜索 算法 (对 于 给 定 的 相似 尺度 ); 
@ 如 何在 检索 过 程 中 融入 用 户 的 反馈 并 进行 交互 。 
本 章 将 主要 讨论 第 一 和 第 三 个 问题 。 第 个 问题 通常 可 以 简化 为 一 种 索引 问题 (也 就 是 ， 


[450| ”在 数据 库 中 找 出 和 指定 查询 最 接近 的 记录 )， 这 在 第 12 章 中 已 经 讨论 过 了 。 


根据 内 容 检索 在 很 大 程度 上 依赖 于 相似 性 的 概念 。 在 下 文 的 讨论 中 ， 我 们 既 使 用 了 “ 相 
似 ” 这 个 词 ， 又 使 用 了 “距离 ”这 个 词 。 从 检索 的 角度 来 看 使 用 其 中 哪 一 个 没什么 大 的 影响 ， 
因为 我 们 既 可 以 使 相似 尺度 最 大 化 ， 又 可 以 使 距离 尺度 最 小 化 。 因 此 我 们 隐 含 假定 ， 大 体 来 
说 这 两 个 术语 是 相反 的 ， 在 实践 中 使 用 哪 一 个 都 可 以 。 

我 们 将 看 到 ， 在 各 种 应 用 中 〈 文 本、 图像 等 等 )， 把 测量 结果 简化 为 固定 长 度 的 标准 向 
量 格 式 是 很 常见 的 ， 因 为 这 样 便 可 以 使 用 标准 的 几何 概念 来 定义 向 量 间 的 距离 尺度 。 可 以 回 
ZÆ 2 章 定义 的 几 种 距离 尺度 ， 比 如 说 ， 欧 氏 距 离 、 加 权 的 欧 氏 距离 、 曼 蛤 顿 距离 等 等 。 有 
必要 指出 ， 尽 管 这 些 标准 距离 函数 可 能 很 有 价值 ， 但 是 它们 主要 是 一 种 数学 结构 ， 因 此 和 人 
类 对 相似 性 的 直观 感觉 未 必 一 致 。 在 讨论 文本 和 图 像 这 样 的 数据 类 型 时 这 一 点 尤其 如 此 ， 因 
为 在 这 些 应 用 中 使 用 建立 在 独立 于 具体 领域 的 通用 距离 函数 基础 上 的 算法 来 模拟 人 类 基于 语 
义 内 容 的 检索 能 力 是 很 困难 的 。 

在 14.2 节 中 我 们 讨论 了 一 个 束 手 的 问题 ， 如 何 客 观 地 评估 特定 检索 算法 的 性 能 。 这 种 
评估 是 非常 复杂 的 ， 因 为 对 检索 性 能 的 最 终 裁 判 取 决 于 提出 查询 的 用 户 的 主观 想法 ， 用 户 决 
定 了 检索 出 的 数据 是 否 相关 (relevant ). 

对 于 结构 化 的 数据 (比如 序列 、 图 像 和 文本 )， 要 解决 根据 内 容 检索 还 有 另 一 个 问题 ， 
也 就 是 如 何 决定 用 以 计算 相似 尺度 的 表示 (representation )。 举 例 来 说 ， 通 常用 颜色 、 纹 理 
和 相似 特征 来 表示 图 像 ， 用 单词 的 出 现 次 数 来 表示 文本 。 这 样 的 抽象 表示 通常 丢失 了 很 多 类 
似 局 部 上 下 文 这 样 的 信息 。 然 而 ， 很 多 时 候 这 些 表示 是 必须 的 ， 因 为 要 在 像素 级 或 ASCII F 
符 级 〈 分 别 对 应 于 图 像 和 文本 ) 定义 有 一 定 含义 的 尺度 是 很 困难 的 。14.3 节 中 讨论 了 针对 文 
本 数据 的 根据 内 容 检索 问题 ， 集 中 讨论 了 向 量 空间 表示 。 这 一 节 还 讨论 了 在 文档 中 匹配 查询 
Wee, BS (latent) 语义 索引 以 及 文档 分 类 。14.4 节 讨 论 了 相关 性 反馈 这 一 话题 ， 介 绍 
了 用 于 对 个 人 偏好 (preference) (青睐 某 一 对 象 而 不 是 男 一 对 象 ) 建 模 的 自动 推荐 系统 。14.5 
节 讨论 了 图 像 检 索 算法 中 的 表示 和 检索 问题 。 建 立 通用 的 图 像 检 索 算 法 是 一 个 很 困难 的 问 
题 ， 因 此 我 们 不 仅 分 析 了 当前 方法 的 长 处 而 且 还 指出 了 其 中 的 不 足 ， 尤 其 是 恒定 性 
invariance) 问题 。14.6 节 浏 览 了 匹配 时 间 序 列 〈time series) FIRES) (sequence) 的 基本 概 
念 。 可 以 把 检索 序列 数据 看 作 是 图 像 检索 的 一 维 情况 ， 所 以 也 有 和 图 像 数 据 类 似 的 表示 和 恒 
定性 问题 。14.7 节 对 本 章 内 容 进 行 了 概括 ，14.8 节 给 出 了 一 些 补充 读物 。 





14.2 ”检索 系统 的 评价 


14.2.1 评价 检索 性 能 的 困难 之 处 

在 分 类 和 回归 中 ， 我 们 总 是 能 以 一 种 客观 的 方式 来 评判 模型 的 性 能 ， 也 就 是 通过 试验 来 
估计 模型 在 未 见 过 的 检验 数据 上 的 精度 〈 或 者 更 一 般 的 情况 是 评价 模型 的 失败 率 )。 这 使 得 
比较 不 同 的 模型 和 算法 很 容易 。 

然而 ， 对 于 根据 内 容 检索 来 说 ， 评 价 一 个 特定 算法 或 技术 的 性 能 要 复杂 和 球 手 的 多 。 主 
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要 的 难点 是 检索 系统 的 最 终 性 能 尺度 是 由 检索 出 的 信息 对 用 户 的 实用 性 来 决定 的 。 因 此 ， 在 
现实 环境 下 ， 对 检索 性 能 的 评价 存在 固有 的 主观 性 〈 与 分 类 和 回归 的 情况 形成 对 比 )。 检 索 
是 一 种 以 人 为 中 心 的 交互 过 程 ， 这 给 评价 检索 性 能 带 来 了 很 大 困难 ， 牢 记 这 一 点 对 理解 下 文 
的 内 容 是 很 重要 的 。 

尽管 直接 评价 特定 检索 系统 对 大 多 数 用 户 的 实用 性 是 非常 困难 的 ， 但 是 如 果 我 们 愿意 作 
出 某 些 简 化 ， 那 么 还 是 存在 一 些 相对 客观 的 方法 可 以 使 用 。 首 先 我 们 假定 〈 为 了 检验 目的 )， 
相对 一 个 特定 的 查询 ， 可 以 把 对 象 标记 为 相关 或 不 相关 。 换 句 话 来 说 ， 对 于 任 一 个 查询 Q, 
我 们 假定 存在 一 个 二 值 分 类 标签 的 集合 ， 该 集合 对 应 于 数据 中 的 所 有 对 象 ， 指 出 哪个 对 象 是 
相关 的 ， 哪 个 是 不 相关 的 。 当 然 ， 对 于 实践 来 说 ， 这 是 一 种 简化 ， 因 为 相关 性 不 一 定 是 一 个 
二 值 的 概念 ， 比 如 说 ， 杂 志文 章 集合 中 的 某 些 文章 对 于 某 个 学 生 的 研究 课题 可 能 特别 相关 或 
不 太 相关 。 此 外 ， 这 种 方法 还 隐 含 的 假定 了 相关 性 是 绝对 的 (不 是 以 用 户 为 中 心 的 user- 
centric) )， 因 为 相对 于 给 定 的 查询 Q@， 每 个 对 象 的 相关 性 对 于 所 有 用 户 都 是 一 样 的 。 最 后 假 
定 已 经 以 某 种 方式 为 每 个 对 象 附加 了 标签 〈 假 定 是 以 一 种 比较 客观 并 与 人 类 判断 相 一 致 的 方 
式 )。 在 实践 中 ， 对 于 很 大 的 数据 集 ， 作 出 这 样 的 相关 性 判断 是 很 困难 的 一 项 任务 。 

有 了 这 些 假定 ， 我 们 就 可 以 把 检索 问题 看 作 一 种 特殊 形式 的 分 类 问题 一 一 类 标签 依赖 于 
查询 Q@， 也 就 是 ,“ 对 于 查询 O 相关 还 是 不 相关 ” 然后 相对 O 来 估计 数据 库 中 对 象 的 类 标 
签 。 然 而 检索 问题 具有 一 些 特点 ， 使 得 对 它 的 处 理 不 同 于 一 般 分 类 。 首 先 ， 分 类 变量 的 定义 
是 由 用 户 掌握 的 《因为 用 户 定义 查询 Q)， 因 此 在 每 次 运行 系统 时 都 可 能 变化 。 第 二 ， 主 要 
目标 不 是 分 类 出 数据 库 中 的 所 有 对 象 ， 而 是 返回 与 用 户 查询 最 相关 的 对 象 。 


14.2.2” 查 准 率 对 查 全 率 


尽管 前 面 作出 了 告 诚 ， 但 是 标 出 大 数据 集中 对 象 是 否 相关 〈 相 对 于 给 定 的 预定 义 查询 集 
合 ) 的 通用 技术 对 于 客观 地 评价 各 种 检索 算法 的 性 能 还 是 非常 重要 的 。 我 们 将 在 14.2.3 节 中 
更 详细 讨论 这 种 标签 问题 ， 一 种 可 行 的 方法 是 通过 人 类 专家 委员 会 来 判断 、 区 分 对 象 是 否 相 
关 





假定 我 们 在 一 个 独立 的 检验 数据 集 上 评价 一 个 指定 检索 系统 相对 特定 查询 8 的 性 能 。 
检验 数据 中 的 对 象 已 经 被 预先 分 类 为 相对 于 查询 O 是 相关 还 是 不 相关 。 假 定 这 个 检验 数据 
集 没有 被 这 个 检索 算法 使 用 过 否则 的 话 ， 这 个 算法 可 能 记 住 了 给 定 查 询 O 到 分 类 标签 的 
映射 )。 我 们 可 以 把 检索 算法 想像 为 就 是 要 对 这 个 数据 集中 的 对 象 作出 分 类 按照 相对 于 查 
H O 的 相关 性 ) 一 一 真实 的 分 类 标签 对 于 算法 是 不 可 见 的 ， 但 对 于 检验 来 说 是 已 知 的 。 

如 果 这 个 算法 是 使 用 距离 尺度 (数据 集中 的 每 个 对 象 相 对 于 8 的 距离 ) 来 排列 (rank) 
对 象 集合 的 ， 那 么 这 个 算法 通常 具有 一 个 阅 值 参数 T。 也 就 是 算法 将 返回 Kr 个 对 象 一 一 和 
查询 对 象 O 的 距离 小 于 了 的 本 个 对 象 的 有 序列 表 。 我 们 可 以 通过 改变 这 个 闪 值 来 改变 检索 
系统 的 性 能 。 如 果 这 个 阐 值 非常 小 ， 那 么 我 们 在 决定 把 哪些 对 象 分 类 为 相关 时 便 很 保守 。 不 
过 ， 这 样 我 们 便 会 漏 掉 一 些 可 能 相关 的 对 象 。 如 果 阔 值 很 大 ， 那 么 效果 相反 : 返回 的 对 象 更 
多 ， 但 是 对 象 实际 上 不 相关 的 可 能 性 也 更 大 。 

假定 对 于 有 N 个 对 象 的 检验 数据 集合 ， 检 索 系 统 返回 了 Kz 个 可 能 相关 的 对 象 。 那 么 可 
以 用 表 14-1 来 归纳 这 个 算法 的 性 能 。 其 中 N= TP + FP + FN+ TN 是 被 标签 对 象 的 总 数 , TP+ 
FP = Kj; 是 算法 返回 对 象 的 数量 ，TP + FN 是 相关 对 象 的 总 数 。 查 准 率 (precision) 被 定义 为 
检索 出 的 对 象 中 包含 相关 对 象 的 比例 ， 也 就 是 TP/ (TP + FP)。 查 全 率 (recall) 被 定义 为 检 
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索 出 的 相关 对 象 相对 于 数据 集中 的 相关 对 象 总 数 的 比例 ， 也 就 是 TP/ (TP + FN)。 这 里 存在 
一 种 天 然 的 折衷 ， 当 返回 对 象 数 Kr 增 大 时 (也 就 是 提高 阀 值 使 算法 将 更 多 的 对 象 分 类 为 相 
关 的 )， 我 们 可 以 期 望 查 全 率 会 上 升 ( 对 于 极限 的 情况 ， 我 们 可 以 返回 所 有 对 象 ， 这 时 查 全 
ZE 1)， 然 而 查 准 率 会 下 降 ( 随 着 Ky 的 上 升 ， 通 常 仅仅 返回 相关 对 象 会 更 加 困难 )。 如 果 
我 们 使 用 不 同 的 阅 值 了 来 运行 检索 算法 ， 那 么 我 们 会 得 到 -系列 〈 查 全 率 ， 查 准 率 ) 的 点 对 。 
反 过 来 可 以 使 用 这 些 点 对 描 出 这 个 特定 检索 算法 〈 相 对 于 查询 QO、 特定 的 数据 集 、 以 及 数据 
标签 ) 的 查 全 率 - 查 准 率 曲线 。 在 实践 中 ， 我 们 不 是 相对 于 唯一 的 查询 来 评价 性 能 ， 而 是 相 
对 于 一 个 查询 集合 来 估计 平均 的 查 全 率 - 查 准 率 性 能 〈 参 见 图 14-1 中 的 例子 )。 注 意 查 全 率 
性 能 曲线 和 用 来 刻 划 带 有 可 变 阔 值 的 二 值 分 类 器 性 能 的 著名 ROC ( receiver-operating 
characteristic) 曲线 实质 上 是 等 价 的 。 


表 14-1 检索 试验 的 四 种 可 能 结果 示意 


TP 

表 14-1 中 ， 实 验 中 已 经 标记 出 了 各 文档 相关 还 是 不 相关 (相对 于 查询 Q)。 列 对 应 于 真实 情况 ， 行 对 应 于 算法 对 文档 的 判 
断 。TP、FP，FN、TN 分 别 对 应 于 真 的 为 正 、 假 的 为 正 、 假 的 为 负 和 真 的 为 负 ， 其 中 正 负 是 指 算法 所 给 出 的 分 类 是 否 相关 。 理 想 
的 检索 算法 将 产生 FP = FN= 0 的 对 角 撼 阵 。 有 时 把 这 种 报告 分 类 结果 的 形式 称 为 混淆 矩阵 (confusion matrix )。 

下 面 考虑 如 果 我 们 把 一 系列 不 同 检索 算法 相对 于 同一 个 数据 集 和 查询 集合 的 查 全 率 - 
查 准 率 曲 线 画 在 一 起 结果 会 怎样 。 在 大 多 数 情况 下 ， 没 有 哪 条 曲线 会 比 其 他 曲线 有 绝对 
的 优势 ， 也 就 是 说 ， 对 于 不 同 的 查 全 率 值 ， 根 据 查 准 率 来 看 最 佳 算法 是 不 固定 的 《参见 
图 14-1)。 因 此 ， 我 们 不 能 完全 根据 查 全 率 - 查 准 率 曲 线 来 裁判 一 个 算法 就 比 另 一 个 更 好 。 
尽管 如 此 ， 这 些 曲线 对 于 在 一 定 操作 条 件 范 围 内 评价 检索 算法 的 相对 、 绝 对 性 能 还 是 有 
价值 的 。 我 们 可 以 使 用 很 多 模式 来 通过 一 个 数字 概括 出 查 全 率 - 查 准 率 性 能 ， 比 如 检索 某 
些 固定 数量 文档 时 的 查 准 率 、 查 全 率 和 查 准 率 相等 那 一 点 的 查 准 率 、 或 者 是 多 个 查 全 率 
水 平 的 平均 查 准 率 。 


14.23 ” 查 准 率 和 查 全 率 的 实践 应 用 


查 准 率 - 查 全 率 评价 在 文本 检索 中 一 直 特 别 流行 ， 尽 管 原则 上 这 种 方法 对 所 有 类 型 的 数 
据 检索 都 是 适用 的 。 文 本 检索 会 议 (TREC) 就 是 查 准 率 - 查 全 率 评价 试验 的 一 个 大 型 例子 ， 
这 个 会 议 是 由 美国 国家 标准 技术 研究 所 (NIST) 举办 的 ， 一 般 一 年 一 次 。 在 这 项 试验 中 使 
用 了 很 多 G 字 节 大 小 的 文本 文档 数据 集合 ， 这 些 数据 大 约 是 由 一 百 万 个 独立 的 文档 〈 对 象 ) 
组 成 的 ， 平 均 每 个 文档 有 500 个 术语 索引 。 这 里 的 一 个 主要 问题 是 如 何 评 价 相 关 性 ， 特 别 是 
如 何 次 定 相关 文档 总 数 以 计算 查 全 率 。 如 果 使 用 50 个 不 同 查询 ， 那 么 就 需要 每 个 人 工 裁判 
员 给 出 $ 千 万 个 分 类 标签 ! 由 于 TREC 会 议 的 参展 系统 很 多 (通常 为 30 个 或 更 多 ), 所 以 TREC 
裁判 员 把 他 们 的 裁判 范围 限制 在 所 有 检索 系统 所 返回 文档 的 前 100 篇 文档 的 联合 ， 并 假定 这 
个 集合 通常 已 经 包含 了 几乎 所 有 的 相关 文档 。 因 此 ,每 个 裁判 者 仅 需 作 出 几 千 个 相关 性 判断 ， 
而 不 是 几 千 万 个 。 
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图 14-1 三 种 假想 查询 算法 的 查 全 率 - 查 准 率 曲线 。 对 于 较 低 的 查 全 率 , 算法 A 的 查 准 率 最 高 ; 
对 于 较 高 的 查 全 率 ， 算 法 B 具 有 最 高 的 查 准 率 。 在 整个 范围 里 ， 算 法 C 都 比 算法 A 和 
B 差 ， 但 是 我 们 无 法 分 辨 出 A 和 B 的 性 能 ， 除 非 〈 举 例 来 说 ) 对 于 固定 的 查 全 率 值 


更 一 般 地 讲 ， 决 定 查 全 率 是 一 个 重要 的 实践 问题 。 例如， 在 检索 互联 网 上 的 相关 文档 时 ， 
要 估计 相关 文档 总 数 是 相当 困难 的 。 理 论 上 讲 可 以 使 用 采样 技术 ， 但 是 ， 如 果 考 虑 了 决定 相 
关 性 时 将 引入 人 的 主观 判断 这 一 事实 ， 就 不 难 理 解 进行 大 规模 的 查 准 率 - 查 全 率 试 验 是 相当 
困难 的 。 


143 文本 检索 


传统 上 ， 一 直 把 对 文本 信息 的 检索 称 为 信息 检索 (IR)， 互 联网 搜索 引擎 的 出 现 使 其 成 
为 一 个 备 受 关注 的 课题 。 可 以 把 文本 看 作 是 由 两 个 基本 单位 组 成 的 ， 也 就 是 文档 (document) 
和 词 条 (term)。 文 档 可 以 是 传统 的 文档 ， 比 如 说 书 或 杂志 的 文章 ， 但 更 一 般 的 情况 是 指 任 
何 结构 化 的 文本 片段 ， 比 如 章节 、 小 节 、 段 落 或 者 甚至 是 电子 邮件 、 网 页 、 计 算 机 源 代码 等 
等 。 词 条 可 以 是 单词 、 词 对 或 文档 中 的 短语 ， 比 如 单词 “数据 ”和 词组 “数据 挖 气 ”。 

按照 IR 惯例 ， 文 本 查询 是 由 词 条 集合 指定 的 。 尽 管 文档 通常 都 比 查询 长 很 多 ， 但 是 使 
用 一 种 单一 的 表示 语言 同时 表示 文档 和 查询 是 很 方便 的 。 通 过 以 一 种 统一 的 方式 来 表示 这 二 
者 , 我 们 可 以 直接 计算 查询 和 文档 间 的 距离 ， 从 而 为 直接 实现 简单 的 文本 检索 算法 提供 框架 。 


14.3.1 文本 的 表示 


和 我 们 将 看 到 的 本 章 后 面 要 介绍 的 图 像 检 索 一 样 ， 大 多 数 关 于 文本 检索 的 研究 集中 在 寻 
找 支 持 如 下 两 个 特征 的 通用 表示 (representation ): 

@ 尽 可 能 保留 数据 语义 内 容 的 能 力 ， 

@ 可 以 高 效 的 计算 查询 和 文档 间 的 距离 。 

使 用 检索 系统 〈 比 如 说 网 络 搜索 引擎 ) 的 用 户 希 望 检 索 出 的 文档 和 他 所 需要 的 信息 在 语 
义 内 容 方 面 是 相关 的 。 从 根本 上 讲 ， 这 需要 解决 一 个 由 来 已 和 久 的 人 工 智 能 问题 一 一 自然 语言 
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理解 (NLP)， 即 通过 编程 使 计算 机 具有 “理解 ”文本 数据 的 能 力 ， 也 就 是 使 计算 机 可 以 把 
文本 中 的 ASCI 字符 映射 到 某 种 定义 完善 的 语义 表示 。 已 经 发 现 要 彻底 解决 这 个 问题 是 非常 
困难 的 。 多 义 词 〈 同 一 个 词 具有 几 种 不 同 的 含义 ) 和 同义词 〈 使 用 几 种 不 同 的 方式 来 描述 同 
一 事物 ) 仅仅 是 阻碍 自动 文本 理解 的 两 个 因素 。 因 此 目前 使 用 的 大 多 数 IR 系统 的 核心 并 非 
是 NLP 技术 (也 就 是 说 目前 实际 的 检索 系统 通常 并 不 包含 明确 的 文档 语义 模型 )。 

HR, BATH IR 系统 通常 依赖 于 简单 的 词 条 匹配 和 计数 技术 ， 即 通过 词 条 出 现 次 数 向 
量 隐 含 并 近似 地 捕捉 了 “至少 是 在 理论 上 ) 文档 语义 。 假 定 已 经 预先 定义 了 要 检索 的 一 系列 
WA 5，1 入 ) 委 7， 这 个 集合 的 规模 可 以 非常 大 〈 比 如 7 = 50 000 或 更 多 )。 然 后 把 每 一 篇 文 
4D, 1<i<N 表示 为 词 条 向 量 : 

D; = (di, do, di) (14.1) 

其 中 d; 表示 第 j 个 词 条 在 第 i 篇 文档 中 出 现 的 某 种 信息 ， 各 个 di 被 称 为 词 条 权 (term 
weight) (不 过 更 确切 地 说 ， 它 们 仪 是 词 条 向 量 的 分 量 值 )。 

在 布尔 表示 中 ， 词 条 权 就 是 指出 某 个 词 条 是 否 在 相应 的 文档 中 出 现 ， 比 如 说 如 果 文档 i 
包含 词 条 j 那么 dj= 1， 否 则 dj =0。 在 向 量 空间 表示 中 ， 每 个 词 条 权 可 以 是 某 个 实数 值 的 数 
字 ， 比 如 说 这 个 词 条 在 文档 中 出 现 频繁 程度 的 函数 ， 或 者 是 〈 可 能 ) 这 个 词 条 在 整个 文档 集 
合 中 的 相对 频率 。 在 14.3.2 节 中 我 们 将 更 详细 的 讨论 词 条 权 。 
注意 ， 当 一 篇 文档 被 表示 为 了 维 的 词 条 向 量 时 ， 不 仅 原 始 文档 中 的 次 序 信息 丢失 了 ， 而 
且 类 似 语 名 结构 这 样 的 语义 信息 也 失去 了 。 尽 管 存在 这 样 的 信息 丢失 ， 词 条 向 量 在 很 多 检索 
应 用 中 仍然 是 非常 有 效 的 。 

下 面 考虑 一 个 涉及 10 篇 文档 和 6 个 词 条 的 简单 例子 。 六 个 词 条 是 

@tl= 数据 库 9 

©® 12= SQL 

eB- 索引 

@4= 回归 

@ 15 = WK 

@ t6= 线性 的 

而 且 我 们 可 以 得 到 一 个 10 x 6 的 文档 - 词 条 频率 矩阵 M， 如 表 14-2 所 示 。 元 素 (TT, 
j 列 ) 表示 文档 i 包含 词 条 jj 的 次 数 。 我 们 可 以 清楚 地 看 到 前 5 篇 文档 d1 到 d5 主要 包含 数据 
库 方面 的 各 个 词 条 (查询 、SQL 和 索引 的 组 合 )， 而 后 5 篇 文档 d6 到 d10 主要 包含 回归 方面 
的 词 条 (回归 、 似 然 和 线性 方面 的 词 条 )。 在 本 章 的 后 面 我 们 还 会 讨论 这 个 例子 。 





表 14-2 ”10 篇 文档 6 个 词 条 的 文档 - 词 条 示例 矩阵 











© 译注 ， 根 据 下 文 ， 此 处 应 该 为 “查询 ”(query)， 而 不 是 数据 库 。 
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tl t2 t3 t4 t5 t6 
d9 1 0 0 34 27 25 


表 14-2 F, Ak j G4, j3) 表示 词 条 j 在 文档 i 中 出 现 的 次 数 . 














如 果 给 定 了 某 种 向 量 的 空间 表示 ， 那 么 定义 文档 间距 离 就 很 简单 了 ， 只 要 使 用 一 些 
定义 好 的 距离 函数 就 可 以 了 。 第 2 章 中 所 介绍 的 大 多 数 距 离 尺 度 都 可 以 用 来 〈 而 且 已 经 
用 来 比较 文档 。 一 种 广泛 应 用 的 距离 尺度 是 余弦 距离 (cosine distance)， 它 是 这 样 定义 
的 : 


T 
> tie Lik 
d,(D;,D;)=$ = (14.2) 


Lia dit Ye dit 


这 是 两 个 向 量 夹 角 的 余弦 (等 价 于 把 它们 标准 化 为 单位 长 度 后 的 内 积 )， 因 此 它 反 映 了 
两 个 向 量 的 词 条 分 量 的 相对 分 布 相似 性 。 尽 管 这 个 距离 尺度 没有 什么 非常 特殊 之 处 ， 但 是 已 
经 证 明 它 在 实际 的 IR 试验 中 特别 有 效 。 

图 14-2 显示 的 是 表 14-2 中 的 文档 - 词 条 频率 矩阵 的 像素 形式 距离 矩阵 。 图 中 既 显 示 了 欧 
氏 距 离 矩 阵 ， 又 显示 了 余弦 距离 矩阵 。 在 两 种 距离 矩阵 中 都 可 以 清楚 的 看 出 存在 两 个 文档 能， 
一 类 是 关于 数据 库 的 文档 ， 另 一 类 是 关于 回归 的 文档 ， 在 图 中 表现 为 两 个 颜色 较 淡 的 方形 区 
域 。 另 一 方面 ， 不 同 组 的 两 篇 文档 间 的 距离 是 比较 大 的 〔 深 色 的 像素 )。 可 以 看 出 ， 余 弦 距 
离 更 好 的 区 分 了 两 个 组 。 举 例 来 说 ， 在 欧 氏 距离 中 (上 图 )， 文 档 3 和 文档 4 《在 数据 库 入 [9 
中 ) 到 文档 5〈 另 一 篇 数据 库 文档 ) 的 距离 比 到 文档 6、8 和 9 关于 回归 的 文档 的 距离 还 
要 远 。 导 致 这 一 现象 的 原因 就 是 文档 3 和 4 (以 及 6、8 和 9) 与 文档 5 相 比 更 靠近 原点 。 余 
纺 距 离 发 挥 了 基于 角度 距离 的 优点 ， 更 强调 各 个 词 条 的 相对 分 布 ， 因 此 产生 的 区 分 更 加 明显 
COLES 14-2 中 的 下 图 )。 

可 以 把 每 个 向 量 D, 看 作 是 原始 文档 的 代理 (surogate) 文档 。 并 把 整个 向 量 集合 表示 
为 一 个 N x 的 矩阵。 通常 这 个 矩阵 是 非常 稀疏 的 ， 比 如 前 面 提 到 的 TREC 文档 群 大 约 仅 
有 0.03%% 的 单元 是 非 零 的 。 对 这 种 矩阵 的 一 种 自然 解释 是 这 个 矩阵 的 每 一 行 D; (一 篇 文档 ) 
是 了 维 “ 词 条 空间 ”中 的 一 个 向 量 。 因 此 ， 如 果 使 用 前 面 章节 中 用 来 描述 数据 集合 的 数据 
矩阵 来 考虑 ， 那 么 文档 的 角色 就 是 各 个 对 象 ， 词 条 就 是 变量 ， 向 量 的 元 素 就 是 对 文档 的 “ 测 
量 结果 ”。 

在 实际 实现 文本 检索 系统 时 ， 出 于 对 词 条 -文档 矩阵 稀疏 性 的 考虑 ， 原 始 的 文档 - 词 条 矩 
阵 被 表示 为 一 种 倒 排 文件 (inverted file) 结构 〈 而 不 是 直接 表示 为 矩阵 形式 )， 也 就 是 按照 
个 词 条 来 索引 文件 ， 每 个 词 条 s 指向 一 个 W 个 数字 的 列表 ， 这 些 数字 描述 了 每 篇 文档 中 出 
现 该 词 条 的 情况 dp j 固定 )。 

产生 词 条 -文档 矩阵 本 身 就 不 是 一 件 容易 的 任务 ， 要 解决 的 问题 有 如 何 定义 词 条 ， 比 如 
说 是 否 把 名 词 的 单数 和 复数 算 作 同一 个 词 条 ? 是 否 该 把 非常 常见 的 词 用 作词 条 ?等 等 。 本 书 
中 没有 详细 地 论述 这 个 问题 ， 不 过 我 们 指出 这 一 部 分 的 “工作 量 ” 相 当 大 。 
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图 14-2 ”文档 - 词 条 示例 矩阵 的 两 两 文档 间距 离 。 上 图 使 用 的 是 欧 氏 距离 ， 下 图 使 用 的 是 
余弦 距离 。 较 亮 的 方块 表示 两 篇 文档 (根据 距离 尺度 ) 比较 相近 ， 较 暗 的 方 
块 表示 不 太 相近 。 对 于 欧 氏 距离 ， 白 色 对 应 两 篇 文档 间 的 距离 为 0( 比 如 对 角 
线 上 的 方 格 )， 黑 色 对 应 于 最 大 的 距离 。 对 于 余弦 距离 ， 较 亮 的 像素 对 应 于 较 
大 的 余弦 值 〈 较 小 的 角度 )， 较 暗 的 像素 对 应 于 较 小 的 余弦 值 〈 较 大 的 夹 角 ) 


14.3.2 ”匹配 查询 和 文档 


也 可 以 使 用 与 表示 文档 相同 的 基于 词 条 的 表征 来 表达 查询 。 实 际 上 ， 可 以 把 查询 本 身 当 
作 一 篇 文档 来 表示 ， 只 不 过 是 通常 查询 仅 包 含 很 少 的 词 条 (尽管 我 们 当然 可 以 使 用 一 篇 真正 
的 文档 作为 查询 。 也 就 是 “ 找 出 和 这 篇 文档 相似 的 文档 ”)。 

对 于 布尔 表示 来 说 ， 可 以 把 查询 表示 为 一 个 逻辑 布尔 函数 ， 函 数 的 参数 是 可 供 使 用 词 条 
的 子 集 。 举 例 来 说 ， 下 面 是 一 个 典型 的 查询 :“data AND mining AND NOT (coal)”。 在 这 种 
情况 下 ， 检 索 的 基本 机 制 就 是 扫描 倒 排 文件 ， 判 断 哪些 文档 精确 地 匹配 了 查询 要 求 。 可 以 对 
这 种 基本 布尔 查询 语言 进行 扩展 ， 比 如 说 增加 权 用 以 指出 某 个 词 条 比 其 他 的 更 加 重要 。 然 而 ， 
布尔 表示 的 一 个 主要 不 足 是 不 存在 一 种 自然 的 语义 来 解释 查询 和 文档 间 的 距离 概念 ， 因 此 没 
有 一 种 自然 的 方式 来 根据 相关 性 对 文档 进行 排序 。 此 外 ， 多 少 有 些 令 人 奇怪 ， 人 们 经 常 难以 
用 布尔 查询 来 精确 地 表达 他 们 的 意图 。 不 过 ， 尽 管 有 这 些 不 足 ， 由 于 布尔 查询 方法 的 高 效 性 
和 简捷 性 ， 这 种 方法 在 实际 IR 系统 中 还 是 很 流行 的 。 
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在 向 量 空间 表示 中 ， 可 以 把 查询 表示 为 一 个 权 向 量 。 没 有 在 查询 中 出 现 的 词 条 所 对 
应 的 权 根 据 约定 被 赋 为 零 。 更 一 般 地 讲 ， 用 户 可 以 指定 各 个 权 ， 以 表示 每 个 词 条 的 相对 
重要 性 (通常 权 的 取 值 范 围 被 限定 在 0 到 1 之 间 )。 实 践 中 ， 用 户 可 能 对 如 何 用 权 来 概括 
它们 的 想法 有 困难 。 后 面 我 们 会 介绍 一 种 被 称 为 相关 性 反馈 (relevance feedback) 的 模 
式 ， 利 用 这 种 模式 可 以 在 多 次 查询 过 程 中 交互 式 地 提炼 权 ， 但 是 在 这 一 节 中 我 们 假定 用 
户 已 给 出 了 查询 以 及 查询 中 的 权 。 

A 0 = (gj, .…, gn 为 查询 权 向 量 。 在 最 简单 的 形式 中 ， 查 询 权 要 么 为 1〈 这 个 词 条 在 查询 
中 ) BAH 0 (这 个 词 条 不 在 查询 中 )， 或 者 使 用 和 表示 文档 相同 的 模式 来 表示 查询 (参见 
下 文 )。 下 面 举 个 例子 来 说 明 简 单 的 简单 的 二 值 模式 ， 考 虑 三 个 查询 ， 每 个 都 是 由 一 个 词 条 
组 成 的 ， 分 别 是 “数据 库 ”" “SQL” 和 “回归 ”。 根 据 前 面 的 例子 ， 可 以 把 这 三 个 查询 表达 
为 三 个 向 量 : (1, 0, 0, 0, 0,0). (0, 1,0, 0, 0, 0) 和 (0, 0, 0, 1, 0, 0)。 利 用 余弦 距离 在 表 14-2 所 示 
的 数据 集中 匹配 这 三 个 查询 ， 这 样 便 得 到 了 最 相近 文档 ， 它 们 分 别 是 d2、d3 和 四 。 

为 了 讨论 把 查询 匹配 到 文档 的 更 一 般 概念 ， 我 们 必须 首先 简要 地 回顾 一 下 向 量 空间 模型 
中 的 权 概念 。 令 d ,为 第 上 个 词 条 在 文档 D PHR (也 就 是 分 量 值 )，1 <k < 7T。IR 文献 
中 已 经 提出 了 很 多 (特别 多 ) 关于 如 何 设置 这 些 权 的 建议 ， 以 提高 检索 的 性 能 。 选 取 这 些 权 
的 理想 目标 是 使 更 相关 的 文档 比 不 太 相关 的 文档 有 更 高 的 权 。 已 经 发 现 布尔 方法 〈 只 要 某 个 
词 条 在 文档 的 任何 地 方 出 现 就 把 对 应 的 权 设 为 1) 偏向 于 很 大 的 文档 未必 是 相关 的 )， 这 
是 因为 更 大 的 文档 更 可 能 在 文档 的 某 个 地 方 报 给 定 查询 中 的 词 条 。 

已 经 证 明 一 种 被 称 为 TF-IDF 加 权 的 特殊 加 权 模式 在 实践 中 特别 有 效 。TEF 代表 词 条 频率 
(term frequency)， 就 是 指 词 条 向 量 中 的 每 个 词 条 分 量 被 乘 以 这 个 词 条 在 文档 中 出 现 的 频率 。 
这 样 做 的 作用 是 提高 了 在 给 定 文档 中 频繁 出 现 的 词 条 的 权 。 表 14-2 中 的 文档 - 词 条 示例 矩阵 
就 是 以 TF 形式 表示 的 。 

然而 ， 如 果 一 个 词 条 在 文档 集合 中 的 很 多 文档 中 都 频繁 地 出 现 ， 那 么 利用 TF 权 进 行 检 
索 的 判别 力 就 很 小 了 ， 也 就 是 它 会 提高 查 全 率 但 是 查 准 率 可 能 很 差 。 文档 频率 倒数 
Cinverse-document-frequency) (IDF) 权 可 以 提高 判别 力 。 它 被 定义 为 log(N/n)， 也 就 是 包 
AFA j 的 文档 占 整 个 文档 集合 的 比例 的 倒数 的 对 数 ，N 为 文档 总 数 。IDF 权 偏 向 于 仅 在 很 
少 文档 中 出 现 的 词 条 ， 也 就 是 说 它 是 有 判别 力 的 。 使 用 IDF 的 对 数 而 不 是 直接 使 用 IDF 的 
原因 是 使 这 个 权 对 文档 总 数 N 不 特别 敏感 。 

TF-IDF 权 就 是 特定 词 条 在 特定 文档 中 的 TF 权 和 IDF 权 的 乘积 。 和 余弦 距离 尺度 
(二 者 经 常 被 一 起 使 用 ) 的 情况 一 样 ， 这 种 定义 权 的 方式 也 没有 任何 特别 令 人 瞩目 的 
动机 ， 但 已 经 发 现 它 的 查 全 率 - 查 准 率 性 能 都 优 于 其 他 的 加 权 模 式 。 有 很 多 不 同方 法 来 
加 强 基本 的 TF-IDF 方法 ， 但 是 上 面 介 绍 的 TF-IDF 加 权 仍 然 是 很 多 评价 试验 的 缺 省 基 
准 方法 。 

从 文档 集合 中 推导 出 的 TF-IDF 权 可 以 保持 不 变 的 用 来 对 查询 词 条 加 权 。 另 一 种 可 选 的 
查询 加 权 方 法 是 仅 用 IDF 权 来 强调 比较 少见 的 查询 词 条 。 比 如 说 ， 如 果 要 提交 查询 “ 理 查 德 
尼克 松 ” 那么 当 我 们 得 到 包含 “尼克 松 ” 不 包含 “ 理 查 德 ” 的 文档 会 比 得 到 相反 情况 的 文 
档 会 更 高 兴 。 

表 14-2 中 的 文档 - 词 条 矩阵 所 产生 的 IDF 权 是 这 样 的 (使 用 自然 对 数 );， (0.105, 0.693, 
0.511, 0.693, 0.357, 0.693)。 注 意 ， 第 一 个 词 条 “数据 库 ” 现 在 的 权 比 其 他 词 条 的 小 了 ， 这 是 
因为 包含 这 一 词 条 的 文档 更 多 〈 也 就 是 说 它 的 判别 力 较 差 )。 这 样 便 可 以 得 到 TF-IDF 文档 - 








D 


463) WREE PER 14-2 中 的 TR 权 乘 以 对 应 的 IDF AL), ON 14-3 所 示 。 


表 14-3 MÆ 14-2 得 到 的 TF-IDF 文档 - 词 条 和 矩阵 人 





























2.53 14.56 4.60 0 0 2.07 
3.37 6.93 2.55 0 1.07 0 
1.26 11.09 2.55 0 0 0 
0.63 4.85 1.02 0 0 0 
453 21.48 10.21 0 1.07 0 
0.63 0 0 11.78 1.42 15.94 
0.21 0 0 22.18 4,28 0 
031 0 0 15.24 1.42 1.38 
0.10 0 0 23.56 9.63 17,33 





在 文档 中 匹配 查询 的 经 典 方 法 是 这 样 的 : 

@ 把 查询 表示 为 词 条 向 量 ，! 表示 词 条 出 现在 查询 中 ，0 表示 不 出 现 ; 

@ 利用 向 量 分 量 的 TF-IDF 权 把 文档 表示 为 词 条 向 量 ; 

@ 使 用 余弦 距离 尺度 按照 文档 到 查询 的 距离 来 排列 文档 。 

表 14-4 显示 了 一 个 简单 查询 实例 ， 比 较 了 TF 和 TF-IDF 方法 。 注 意 ， 并 不 像 布尔 方法 
那样 精确 的 匹配 检索 结果 返回 所 有 匹配 的 文档 )， 距 离 尺 度 对 至 少 包含 一 个 相关 词 条 的 所 





有 文档 进行 排序 。 
R144 ”在 文档 中 匹配 查询 
x # TF E A TF-IDF 距离 
dl 0.70 0.32 
d2 0.77 0.51 
d3 0.58 0.24 
d4 0.60 0.23 
d5 0.79 0.43 
d6 0.14 0.02 
d7 0.06 0.01 
d8 0.02 0.02 
d9 0.09 0.01 
d10 0.01 0.00 
表 14-4 中 ， 查 询 包 含 的 词 条 是 “数据 库 ” 和“ 索引”， 也 就 是 QC = (1 0, 1,0,0,0); 对 应 


(464) 的 文档 - 词 条 矩阵 来 自 表 14-2; 使 用 的 距离 尺度 是 余弦 距离 。 如 果 使 用 TF H SCRE dS 是 
最 相近 的 ， 使 用 TF-IDF RE, d2 是 最 相近 的 。 


14.3.3 ” 隐 含 语义 索引 


在 前 面 讨论 的 文本 检索 模式 中 ， 我 们 把 所 有 希望 都 寄托 在 将 文档 表示 为 了 维 词 条 权 向 量 
这 一 思想 上 。 但 是 基于 词 条 方法 的 一 个 不 足 是 用 户 可 能 使 用 不 同 的 术语 来 提出 查询 ， 这 些 术 
语 不 在 用 来 索引 文档 的 词 条 当中 。 举 例 来 说 ， 从 词 条 相似 性 的 角度 来 看 ， 词 条 “数据 挖 气 ” 


译注 :经 与 原作 者 确认 ， 此 表 应 为 十 行 ， 且 有 些 行 数字 不 对 ， 请 读者 自行 修正 。 
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和 “知识 发 现 ”没有 什么 直接 的 共同 点 。 然 而 ， 从 语义 角度 来 看 ， 这 两 个 词 条 有 很 大 的 相同 
点 而 且 如 果 我 们 提出 一 个 包含 其 中 之 一 的 查询 ， 那 么 我 们 应 该 考虑 包含 另 一 个 的 文档 。 解 决 
这 一 问题 的 一 种 方法 是 使 用 预先 创建 的 由 在 把 语义 相关 词 条 连接 到 一 起 的 知识 库 ( 同 义 词典 
或 本 体 集 )。 然 而 ， 这 样 的 知识 库存 在 固有 的 主观 性 ， 因 为 它 取 决 于 从 何 种 角度 来 把 词 条 和 
语义 内 容 联系 起 来 ， 

另 一 种 可 选 的 有 趣 又 有 价值 的 方法 被 称 为 隐 仿 语义 索引 〈latent semantic indexing ) 
(LSI)。 这 个 名 字 暗 示 出 LSI 不 是 仅 使 用 词 条 出 现 信息 ， 而 是 从 文本 中 提取 出 隐藏 的 语义 结 
构 信 息 。 实 际 上 ，LSI 就 是 用 了 维 词 条 空间 中 前 大 个 主 分 量 方向 来 近似 原始 的 了 维 词 条 空间 ， 
使 用 NN xz 的 文档 - 词 条 矩阵 来 估计 这 个 方向 。 正 如 第 3 章 中 所 讨论 的 ， 前 个 主 分 量 方向 解 
释 了 数据 矩阵 中 的 大 多 数 变化 ， 从 这 个 意义 上 说 它 提 供 了 大 个 正 交 基 向 量 (orthogonal basis 
vectors) 的 最 佳 集合 。 主 分 量 方法 可 以 消除 词 条 中 的 见 余 (如 果 存 在 的 话 )。 实 践 中 这 样 的 
元 余 是 经 常 存在 的 。 举 例 来 说 ， 像 “数据 库 、SQL、 索 引 、 查 询 优 化 ”这 样 的 查询 就 存在 一 
定 的 元 余 ， 因 为 很 多 数据 库 方面 的 文档 可 能 会 同时 包含 这 四 个 词 条 。 主 分 量 方法 的 直观 解释 
是 ， 由 原始 词 条 的 加 权 组 合 所 构成 的 单个 向 量 可 以 非常 好 的 近似 由 大 得 多 的 向 量 集合 所 起 的 
效果 。 于 是 可 以 把 原来 的 N x 了 大 小 的 文档 - 词 条 和 矩阵 简化 为 N x 上 的 和 矩阵， 其 中 可 以 远 远 
小 于 T， 这 种 简化 所 损失 的 信息 是 很 少 的 。 从 文本 检索 的 角度 来 看 ， 对 于 固定 的 查 全 率 ， 和 
前 面 讨论 的 向 量 空间 方法 相 比 ，LSI 可 以 提高 查 准 率 。 

用 主 分 量 表示 文档 - 词 条 和 矩阵 的 一 个 有 趣 特征 是 ， 它 通过 创建 可 以 更 贴切 反映 文档 语义 
内 容 的 新 词 条 从 而 捕捉 了 词 条 间 的 关系 。 例 如 ， 如 果 把 词 条 “数据 库 、SQL、 索 引 、 查 询 优 
化 ”有 效 地 合并 成 一 个 单一 的 主 分 量词 条 ， 那 么 我 们 可 以 认为 这 个 新 的 词 条 定义 了 一 篇 文档 
的 内 容 是 否 是 关于 数据 库 概念 的 。 因 此 ， 如 果 有 人 使 用 词 条 SQL 提出 了 一 个 查询 ， 但 是 文 
档 集 合 中 的 有 关 数 据 库 文档 仅 包含 了 “索引 ”这 个 词 条 ， 那 么 LSI 方法 将 返回 这 些 数据 库 文 
档 (而 严格 的 基于 词 条 方法 不 会 返回 这 些 文档 )。 

我 们 可 以 对 表 14-2 中 的 矩阵 M 计算 奇异 值 分 解 式 《singular-value decomposition ) 
(SVD)。 也 就 是 ， 找 到 一 个 分 解 式 M = USV. XE U 是 一 个 10 x 6 的 矩阵 ， 它 的 每 一 行 
是 相对 特定 文档 的 权 向 量 ，S 是 每 个 主 分 量 方向 特征 值 的 6x6 对 和 角 阵 ，6 x 6 的 矩阵 V7 的 各 
列 提供 了 数据 的 新 共生 基 ， 经 常 被 称 为 主 分 量 方 向 。 

S 和 矩阵 的 对 角 线 元 素 是 

Ay ot, Ag= {77.4, 69.5, 22.9, 13.5, 12.1, 4.8} 


可 见 ， 前 两 个 主 分 量 捕捉 了 数据 中 的 主要 变化 ， 这 和 我 们 的 直觉 一 致 。 事 实 上 ， 要 是 我 
们 仅 保 留 这 两 个 主 分 量 〈 使 用 两 个 代理 词 条 而 不 是 六 个 )， 那 么 这 种 二 维 表征 所 保留 的 变化 


比例 是 ( 衬 + AB) 六 A? =0.925， 也 就 是 仅 丢失 了 7.5% 的 信息 〈 从 均 方 的 意义 上 来 说 )。 如 
果 我 们 在 新 的 二 维 主 分 量 空间 来 表示 文档 ， 那 么 每 篇 文档 的 系数 对 应 于 U 矩阵 中 的 前 两 列 : 


G1 30.8998 -11.4912 
a2 30.3131 -10.7801 
da3 18.0007 -7.7138 
a4 8.3765 -3.5611 
da5 52.7057 -20.6051 
d6 14.2118 21.8263 








~ 
nN 
an 
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d7 10.8052 21.9140 
d8 11.5080 28.0101 
d9 9.5259 17.7666 
a10 19.9219 45.0751 


而 且 我 们 可 以 把 这 两 列 看 作 新 的 伪 词 条 ， 其 作用 相当 于 原来 6 个 词 条 的 线性 组 合 。 
看 一 下 前 两 个 主 分 量 方向 可 以 得 到 的 信息 ; 
Vi= (0.74, 0.49, 0.27, 0.28, 0.18, 0.19) (14.3) 
v, = (-0.28, -0.24, -0.12, 0.74, 0.37, 0.31) (14.4) 
这 两 个 方向 〈 一 个 平面 ) 是 原来 六 维 词 条 空间 中 数据 最 分 散 〈 具 有 最 大 方差 ) 的 方向 。 
第 一 个 方向 更 突出 前 两 个 词 条 〈 查 询 ，SQL): 实际 上 这 是 描述 和 数据 库 有 关 文 档 的 方向 。 
第 二 个 方向 突出 了 后 三 个 词 条 一 一 回归 、 似 然 和 线性 ， 可 以 认为 这 是 刻画 和 回归 有 关 文 档 的 
方向 。 图 143 以 图 形 方式 说 明了 这 一 点 。 我 们 可 以 看 到 ， 当 把 文档 投影 到 由 前 两 个 主 分 量 
方向 所 决定 的 平面 时 ， 两 个 不 同 组 的 文档 分 布 在 两 个 不 同 的 方向 上 。 注 意 文档 2 几乎 落 到 文 
档 1 上， 使 其 有 点 模糊 。( 下 文 讨论 了 符号 DI 和 D2 的 含义 。) 各 点 到 原点 间 的 距离 反映 了 
每 篇 文档 的 词 条 向 量 〈 也 就 是 词 条 数 ) 的 幅 值 。 例 如 ， 文 档 5 和 10 的 词 条 向 量 最 大 ， 因 此 
离 原点 最 远 。 从 图 中 可 以 看 出 ， 文 档 间 的 角度 差异 显然 是 相似 性 的 一 个 有 用 指标 ， 因 为 回归 
和 数据 库 文档 在 平面 上 是 围绕 两 个 不 同 的 角度 聚 成 驴 的 。 
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主 分 量 方向 1 
图 14-3” 主 分 量 方法 。 图 中 画 出 了 表 14-2 中 的 10 篇 文档 在 二 维 平面 上 的 
投影 位 置 ， 这 个 平面 是 由 文档 - 词 条 矩阵 M 的 前 两 个 主 分 量 决定 的 


下 面 举 一 个 例子 来 说 明 主 分 量 方法 的 优点 。 考 虑 一 个 新 的 文档 D1， 词 条 “数据 库 ”© 在 
该 文档 中 出 现 50 次 ， 另 一 个 文档 D2， 包 含 词 条 “SQL”50 次 ， 而 且 两 篇 文档 都 不 包含 其 他 
的 词 条 。 如 果 直 接 使 用 关键 字 表 示 ， 那 么 这 两 文档 不 会 被 认为 是 相似 的 ， 因 为 它们 没有 包含 
相同 的 词 条 我 们 的 示例 中 所 使 用 的 特定 词 条 )。 然 而 ， 如 果 我 们 使 用 两 个 主 分 量词 条 来 表 
示 这 两 篇 文档 ， 并 把 它们 投影 到 这 个 空间 中 ， 那 么 正如 图 14-3 所 示 的 ， 二 者 都 被 投影 到 “ 数 
据 库 ” 方 向 ， 尽 管 它们 都 仅 包含 和 数据 库 有 关 的 三 个 词 条 中 的 一 个 。 主 分 量 方法 隐 含 地 模拟 


O 译注 ， 应 该 为 “查询 ”。 
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了 词 条 间 的 相互 关系 。 这 一 特征 对 查询 很 有 好 处 。 设 想 如 果 我 们 仅 使 用 词 条 SQL 提出 一 个 
查询 。 如 果 我 们 使 用 主 分 量 〈 例 如 ， 前 两 个 伪 词 条 ) 来 表示 文档 ， 那 么 我 们 可 以 把 查询 也 转 
化 为 伪 词 条 表示 ， 这 样 查询 和 数据 库 文档 间 的 距离 〈 按 角度 ) 会 比 和 回归 文档 间 的 距离 更 小 ， 
这 样 便 可 以 检索 出 根本 不 包含 SQL 词 条 但 是 内 容 相 关 的 文档 。 

从 计算 的 角度 来 看 ， 直 接 计算 主 分 量 向 量 (例如 求解 相关 和 矩阵 或 协 方差 矩阵 的 特征 值 》 
通常 要 么 是 计算 上 不 可 行 ， 要 么 是 数值 上 不 稳定 。 实 践 中 ， 可 以 使 用 特别 适合 高 维 稀疏 矩阵 
的 SVD 技术 来 估计 PCA 向 量 。 

这 种 基本 框架 有 很 多 其 他 的 变 体 。 检 索 文本 的 主 分 量 方法 经 常 被 称 为 隐 含 语义 索引 
(LSI)。 系 统 的 测试 已 经 证 明 这 种 通用 技术 在 很 多 情况 下 可 以 提高 检索 的 性 能 ， 这 主要 是 因 
为 它 可 以 匹配 不 包含 相同 词 条 的 查询 和 文档 。 [468| 

FRAT] te BY WL AS FR 7 TR SRY TR EF cf OR 
型 所 组 成 的 混合 模型 产生 的 ， 每 个 分 量 表示 以 特定 主题 为 条 件 的 单词 分 布 。 每 个 分 量 模型 可 
以 是 (举例 来 说 ) 条 件 独 立 的 〈 朴 素 贝 叶 斯 ) 也 可 以 是 多 维 正 态 的 ， 而 且 可 以 像 第 9 章 中 所 
介绍 的 那样 ， 直 接 使 用 EM 算法 来 拟 合 混合 模型 。 


14.3.4 “文档 和 文本 分 类 


从 我 们 的 讨论 中 可 以 清楚 的 看 出 使 用 词 条 向 量 来 表示 文档 为 文档 分 类 提供 了 一 种 自然 框 
架 ， 有 了 这 一 框架 对 于 预先 有 标签 的 文档 我 们 可 以 应 用 第 10 章 的 有 指导 分 类 ， 对 于 没有 标签 的 
文档 我 们 可 以 应 用 第 9 章 的 无 指导 学 习 《〈 聚 类 ) 框架 。 例 如 ， 这 种 概念 的 一 个 实际 应 用 就 是 把 
网 络 文档 自动 而 又 准确 地 聚 类 成 组 或 类 目 ， 以 更 新 并 维护 网 络 搜索 引 葡 所 使 用 的 庞大 数据 库 。 

典型 词 条 向 量 的 维 数 都 是 非常 高 的 〈 例 如 ，10 000 数量 级 或 更 多 都 是 很 普遍 的 )， 由 于 这 
一 事实 ， 高 维 空间 中 的 准确 性 和 高 效 性 通常 是 选择 分 类 器 的 首要 标准 。 举 例 来 说 ， 尽 管 分 类 
树 通 常 对 高 维 问题 是 很 有 价值 的 ， 但 是 对 于 文档 分 类 来 说 单个 特征 单个 词 条 ) 的 信息 可 能 
还 不 够 丰富 。 对 于 体育 类 文档 来 说 ， 更 可 能 的 情况 是 这 样 的 文档 包含 “得 分 ” “场地 ”“ 体 
育 馆 ”、“ 胜 利 ” 等 词 中 的 某 个 子 集 ， 但 不 总 是 包含 这 个 集合 中 的 某 个 特定 单词 。 因 此 ， 对 于 
文档 表示 来 说 ， 像 一 阶 贝 时 斯 分 类 器 〈 朴 素 贝 叶 斯 ) 这 样 的 分 类 模型 或 者 是 加 权 线 性 组 合 〈 比 
如 线性 支持 向 量 机 ) 往往 工作 得 很 好 ， 因 为 它们 以 一 种 比较 简单 的 方式 〈 比 如 说 线性 方式 ) 
把 很 多 不 同 的 特征 组 合成 分 类 的 依据 。 前 馈 神 经 网 络 对 于 大 多 数 文档 建 模 问题 都 是 不 可 行 的 ， 
主要 原因 是 不 论 从 模型 的 参数 数量 来 看 ， 还 是 从 定义 训练 模型 所 需 的 时 间 来 看 都 过 于 复杂 。 

在 文档 分 类 这 一 领域 还 有 很 多 有 趣 的 问题 无 法 在 本 书 中 一 一 介绍 。 例 如 认为 每 篇 文档 属 
于 多 个 主题 CH) 而 不 是 仅 属 于 某 个 类 是 有 意义 的 。 这 样 ， 便 不 再 限于 各 个 类 是 互 斥 的 这 一 ”46 
通常 框架 一 一 对 于 文档 来 说 各 个 类 不 一 定 是 互 斥 的 。 有 很 多 不 同 的 方法 来 处 理 这 种 “多 重 隶 
属 ” 问 题 。 一 种 简单 的 方法 是 为 每 个 类 分 别 训练 一 个 二 值 分 类 器 ， 这 种 方法 仅 当 类 别 总 数 较 
少时 是 可 行 的 。 


O 





14.4 “对 个 人 偏好 建 模 
14.4.1 相关 性 反馈 


正如 前 面 所 指出 的 ， 检 索 系 统 比 本 章 前 面 所 讨论 的 其 他 数据 挖掘 算法 更 具 交 互 性 。 特 
别 是， 提出 特定 查询 @ 的 用 户 可 能 愿意 反复 使 用 算法 进行 一 系列 不 同 的 检索 尝试 ， 并 通过 
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为 返回 的 文档 标记 出 相关 与 否 来 给 算法 提供 用 户 反馈 。 可 以 把 这 种 思想 用 在 各 种 检索 系统 
中 一 一 不 仅 仪 是 文本 检索 ， 但 是 本 章 仅 针对 文本 检索 进行 讨论 。 

在 这 方面 ，Rocchio 工法 应 用 的 特别 广泛 。 该 算法 的 一 般 思想 是 : 从 根本 上 讲 相关 性 是 
以 用 户 为 中 心 的 ， 也 就 是 ， 如 果 用 户 可 以 《理论 上 ) 看 到 所 有 的 文档 ， 那 么 原则 上 他 可 以 把 
所 有 文档 分 成 两 个 集合 ， 相 关 的 R 和 不 相关 的 NR。 如 果 给 定 了 这 两 个 集合 ， 那 么 可 以 证 明 
最 佳 的 查询 《〈 利 用 向 量 模型 ) 为 : 


1 1 
Qoptimal “Tri? -INRI 2a? (14.5) 
其 中 D 代表 文档 的 词 条 向 量 表示 ， 它 的 标签 (用 户 作 出 的 ) 是 已 知 的 。 
当然 实践 中 ， 某 个 特定 用 户 不 会 一 个 人 把 数据 库 中 的 所 有 文档 都 标 上 分 类 标签 。 相 反 ， 
用 户 是 从 一 个 特定 查询 Qura 开始 的 ， 可 以 把 这 个 查询 看 作 是 相对 Cu 次 优 的 。 算 法 使 用 
这 个 初始 查询 返回 文档 的 一 个 较 小 子 集 ， 然 后 用 户 把 这 个 子 集中 的 文档 标记 为 相关 R' 和 不 相 
X NR’. Rocchio 算法 按 下 面 的 方式 来 提炼 查询 ; 


B Y (14.6) 
Ree TNR oie 

.这 样 便 使 当前 查询 朝 着 被 判定 为 相关 文档 的 均值 向 量 靠近 ， 并 远离 被 判定 为 不 相关 文档 
的 均值 向 量 。 参 数 a、pB 和 ;是 正 的 常数 (启发 式 的 选取 )， 它 们 控制 着 新 查询 对 最 近 标 记 文档 
的 敏感 性 (相对 于 当前 查询 向 量 Ouren) DOBRA, hee, HHA OQ... 与 
文档 集合 进行 匹配 ， 然 后 让 用 户 再 一 次 标记 文档 。 注 意 即使 初始 查询 Cu 被 用 户 陈述 错 了 ， 
理论 上 讲 这 个 算法 也 可 以 根据 相关 性 适应 并 学 习 到 用 户 的 隐 含 偏好 。 原 则 上 讲 ， 如 果 每 一 次 
和 迭代 所 作 的 标签 是 一 致 的 ， 那 么 C,。 会 逐步 逼近 Qoprimaio 

实验 证 据 表 明 ， 这 样 的 用 户 反 馈 确 实 提 高 了 查 准 率 - 查 全 率 性 能 。 换 句 话 来 说 ， 已 经 证 
明 融 合用 户 反馈 是 改善 信息 检索 性 能 的 一 种 系统 有 效 的 方法 。 当 然 ， 要 在 实践 中 实现 这 种 方 
法 还 有 很 多 细节 的 问题 需要 确定 ， 比 如 说 应 该 显示 给 读者 的 文档 数量 ， 使 用 的 相关 文档 和 非 
相关 文档 的 相对 数量 ， 选 取 非 相关 文档 的 方法 等 等 ， 这 也 就 产生 了 基于 这 种 基本 模式 的 大 量 
变 体 。 


14.4.2 ”自动 推荐 系统 


我 们 可 以 把 仅 对 单一 用 户 偏 好 建 模 的 方法 推广 到 一 种 更 复杂 的 情况 : 使 用 数据 库存 储 
多 个 用 户 的 信息 以 及 它们 对 大 量 对 象 的 偏好 。 协 同 过 滤 (collaborative filtering) 技术 就 是 
一 种 发 挥 这 些 信息 作用 的 著名 方法 。 举 例 来 说 ， 设 想 你 对 某 一 组 音乐 感 兴趣 并 在 一 个 网 络 
站 点 购买 了 这 组 音乐 的 CD。 其 他 几 百 个 人 可 能 也 已 经 购买 了 这 种 CD， 因 此 很 可 能 至 少 在 
音乐 品位 方面 他 们 的 一 些 偏好 和 你 的 是 相 匹配 的 。 这 种 情况 下 ， 协 同 过 滤 就 是 运行 在 网 络 
站 点 上 的 一 种 算法 ， 它 可 以 向 你 提供 和 你 购买 了 同一 张 CD 的 人 所 购买 的 其 他 CD 的 列表 。 
显然 我 们 可 以 从 很 多 个 角度 来 对 这 种 基本 思想 加 以 推广 。 例如， 如 果 我 们 具有 每 个 用 户 的 
采购 历史 ， 而 且 / 或 者 用 户 愿意 提供 他 们 特定 兴趣 的 更 多 详细 信息 (以 用 户 简介 的 形式 )， 
那么 我 们 便 可 以 为 每 个 用 户 建 立 向 量 表示 ， 这 样本 章 前 面 关 于 定义 相似 尺度 的 讨论 就 可 以 
适用 于 此 了 。 








Qov = AQ rent + 
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从 某 种 意义 上 来 说 ， 协 同 过 渡 就 是 试图 捕捉 一 个 很 大 团体 的 专业 见解 和 他 们 的 推荐 意 [471 
见 ， 而 且 这 个 组 是 以 匹配 特定 用 户 兴趣 为 目标 自动 选取 出 的 。 这 种 算法 通常 这 样 工 作 : 首先 
找 出 和 目标 简介 最 相似 的 用 户 简介 ， 然 后 根据 相 匹配 简介 集合 的 属性 求解 推荐 意见 〈 把 推荐 
意见 作为 相 匹 配 简介 的 属性 的 函数 )。 推 荐 意见 的 质量 依赖 于 了 解 的 每 个 用 户 信 息 的 数量 和 
质量 以 及 用 户 数 据 库 的 大 小 。 这 种 技术 往往 在 用 户 数量 非常 庞大 的 情况 下 工作 的 特别 好 。 在 
实践 中 要 得 到 大 量 用 户 简介 是 很 困难 的 ， 因 为 用 户 对 花 时 间 提 供 详细 个 人 信息 存在 固有 的 抵 
触 心理 。 

通过 用 户 行为 《比如 他 们 买 什么 ， 或 者 他 们 访问 哪些 网 页 ) 来 捕捉 用 户 的 偏好 是 一 种 不 
干扰 用 户 又 可 以 暗中 估计 用 户 偏好 的 方式 ， 基 于 互联 网 的 推荐 系统 普遍 采用 这 种 技术 。 一 种 
常见 的 实践 问题 〈 例 如 在 电子 商务 应 用 中 ) 是 算法 必须 实时 地 产生 推荐 意见 ， 比 如 必须 在 1 
秒 钟 之 内 。 如 果 我 们 的 用 户 数 据 库 非常 庞大 〈 比如 记录 数 为 百 万 数量 级 )， 那 么 就 会 给 计算 
和 数据 加 工 带 来 严重 的 挑战 。 
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图 像 和 视频 数据 集合 在 不 断 地 增加 ， 从 业余 爱好 者 存储 的 家 庭 生日 宴会 数字 图 像 到 各 种 
组 织 〈 比 如 (美国 ) 国 家 航空 和 宇宙 航行 局 (NASA) 以 及 各 种 军事 机 构 ) 远程 采集 并 存储 的 
地 球 传 感 图 片 。 随 着 图 像 数 量 的 不 断 增 大 ， 人 们 对 图 像 检索 的 兴趣 也 日 益 浓厚 。 手 工 对 图 像 
进行 注释 具有 浪费 时 间 、 主 观 性 强 等 缺点 ， 而 且 可 能 因为 注释 者 的 看 法 不 同 而 丢失 图 像 的 某 
些 特征 。 一 幅 图 像 可 能 要 使 用 一 千 个 词 来 描述 ， 但 是 到 底 使 用 哪 一 千 个 单词 却 不 是 简单 的 问 
题 ! 

因此 ， 开 发 高 效 而 又 准确 的 算法 来 根据 内 容 对 图 像 数据 库 进 行 查询 是 很 有 必要 的 。 比 如 
开发 交互 式 的 系统 ， 人 允许 用 户 提交 这 样 的 查询 “ 找 出 和 这 幅 图 像 最 相近 的 K 幅 图 像 ”或 者 
“ 找 出 和 这 组 图 像 属性 最 匹配 的 K 幅 图 像 ?。 这 种 算法 的 潜在 应 用 非常 多 : 在 放射 学 中 搜索 
相似 的 诊断 图 像 ， 寻 找 有 关 的 影片 片段 用 于 广告 和 杂志 ; 以 及 在 地 质 、 艺 术 和 时 尚 等 领域 对 
图 像 进行 分 类 编目 。 


14.5.1 图 像 理 解 


有 必要 指出 ， 图 像 数据 查询 是 非常 困难 的 任务 。 从 某 种 意义 上 来 说 寻找 彼此 相似 的 图 像 
等 价 于 求解 图 像 理 解 问题 ， 也 就 是 从 图 像 数据 中 抽取 语义 信息 。 在 这 方面 人 类 非常 出 色 ， 然 
而 ， 关 于 模式 识别 和 计算 机 视觉 的 几 十 年 研究 已 经 表明 ， 要 用 计算 机 算法 来 “复制 ”人 类 在 
视觉 理解 和 识别 方面 的 能 力 是 极端 困难 的 。( 这 和 前 面 在 文本 理解 中 提 到 的 NLP 问题 非常 类 
A) 虽然 目前 可 以 成 功 解决 某 些 特定 的 问题 ， 比 如 面容 识别 或 者 起 飞 跑道 探测 ， 但 是 通用 
图 像 理 解 系统 的 研究 还 远 未 成 熟 。 举 例 来 说 ， 婴 儿 可 以 很 快 地 学 会 在 任何 背景 下 辨别 各 种 动 
物 ， 比 如 各 种 大 小 、 颜 色 、 体 型 (包括 卡通 图 片 ) 的 狗 ， 而 这 种 完全 无 约束 的 识别 问题 超出 
了 目前 任何 视觉 算法 的 能 力 。 这 种 从 原始 图 像 数 据 中 提取 语义 信息 的 能 力 目前 还 仅 为 大 脑 所 
掌握 。 因 此 ， 目 前 的 大 多 数 图 像 检索 算法 还 仅 依赖 于 相当 低级 的 可 视 提示 。 


14.5.2 ”图 像 表示 
为 了 便于 检索 ， 可 以 把 原始 的 像素 数据 抽象 为 特征 表示 ， 通 常 是 以 类 似 色彩 和 纹理 这 样 
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阵 格式 ， 每 一 行 ( 对 象 ) 代表 一 幅 特 定 的 图 像 ， 每 一 列 (BE) 代表 一 个 图 像 特 征 。 这 样 的 
特征 表示 通常 比 直接 的 象 素 测 量 值 对 缩放 和 平移 变化 更 有 效 ， 但 是 尽管 如 此 ， 它 可 能 仅 对 亮 
度 、 阴 影 和 视角 等 的 很 小 变化 是 保持 恒定 的 。 
典型 情况 下 ， 图 像 数 据 库 中 的 图 像 特征 是 预先 计算 并 存储 好 的 ， 以 供 检索 使 用 。 因 
此 只 要 在 多 维特 征 空 间 中 进行 距离 计算 和 检索 。 和 文本 的 情况 一 样 ， 原 始 的 像素 数据 被 
简化 为 标准 的 N x p 数据 和 矩阵， 在 这 个 矩阵 中 每 一 幅 图 像 被 表示 为 特征 空间 中 的 一 个 p 
维 向 量 。 
通过 计算 图 像 局 部 化 子 区 域 的 特征 可 以 粗略 的 引入 空间 信息 。 举 例 来 说 ， 我 们 可 以 计算 
一 幅 1 024 x 1 024 像素 图 像 的 每 个 32 x 32 子 区 域 的 颜色 信息 。 这 样 便 可 以 在 图 像 查询 中 使 用 
粗略 的 空间 约束 ， 比 如 “寻找 中 央 主 要 为 红色 ， 由 周 为 蓝 色 的 图 像 ”。 
除了 常规 的 mx n 像素 的 景物 (scenes〉 图像， 图 像 数 据 库 也 可 以 包含 特定 的 对 象 图 像 ， 
也 就 是 单一 背景 上 的 对 象 〈 比 如 白色 背景 上 的 一 张 黑色 椅子 的 图 像 )。 因 此 我 们 也 可 以 提取 
针对 对 象 的 属性 原 语 ， 比 如 对 象 的 颜色 、 大 小 和 形状 〈 几 何 信息 ) 特征 。 视 频 图 像 是 对 图 像 
数据 的 进一步 推广 ， 它 把 多 幅 图 像 〈 帧 》 相 对 时 间 顺 序 的 连接 起 来 。 
应 用 于 图 像 的 根据 内 容 检索 系统 的 一 个 著名 商业 实例 是 BM 研究 者 们 在 20 世纪 90 年 
代 早 期 开发 的 根据 图 像 内 容 查 询 (QBIC) 系统 。 这 个 系统 是 建立 在 14.5 节 所 描述 的 一 般 思 
想 之 上 的 ， 它 允许 用 户 交 互 式 的 查询 图 像 和 视频 数据 ， 查 询 的 依据 可 以 是 图 像 实例 、 用 户 输 
入 的 草图 、 颜 色 和 纹理 模式 、 对 象 属性 等 等 。 该 系统 允许 对 景物 、 对 象 〈 景 物 的 一 部 分 ) 以 
及 视频 帧 序列 或 者 是 这 些 的 任意 组 合 进行 查询 。QBIC 系统 使 用 了 多 种 特征 以 及 多 种 和 距离 
有 关 的 尺度 用 于 检索 : 
o 相对 整 幅 图 像 进行 空间 平均 的 三 维 颜 色 特征 向 量 ， 距离 尺度 就 是 简单 的 欧 氏 距离 。 
@ K- 维 颜色 直方 图 ， 直 方 图 的 柱 位 可 以 使 用 像 K- 平 均 这 样 的 基于 划分 聚 类 算法 来 选取 ， 
天 值 依赖 于 具体 的 应 用 。QBIC 使 用 颜色 直方 图 向 量 问 的 马 氏 〈Mahalanobis) 距离 尺 
度 来 表征 颜色 相关 性 。 
@ 衡量 粒度 /比例 、 方 向 性 和 对 比 度 特征 的 三 维 纹理 向 量 。 按 照 加 权 的 欧 氏 距离 尺度 来 
计算 距离 ， 权 的 缺 省 值 为 各 个 特征 方差 的 倒数 。 
© 20- 维 的 对 象形 状 特征 ， 比 如 区 域 、 圆 度 、 离 心率 、 轴 方向 、 各 种 矩 (moments) 等 等 。 
利用 欧 氏 距离 来 计算 相似 性 。 


14.5.3 图 像 查询 


和 文本 数据 的 情况 相同 ， 用 于 抽象 表示 图 像 的 方法 〈 也 就 是 计算 特征 ) 决定 了 支持 何 种 
类 型 的 查询 和 检索 操作 。 特 征 表 示 提 供 了 一 种 表示 查询 的 语言 。 我 们 可 以 用 两 种 基本 形式 来 
表示 查询 。 一 种 方法 是 通过 样 例 查 询 ， 在 这 种 方法 中 ， 我 们 既 可 以 为 要 寻找 的 目标 提供 一 个 
图 像样 例 ， 也 可 以 勾画 出 感 兴趣 图 像 的 形状 。 接 下 来 便 计算 样 例 图 像 的 特征 向 量 ， 然 后 再 把 
计算 出 的 查询 特征 向 量 和 数据 库 中 预先 计算 出 的 特征 向 量 进行 匹配 。 另 一 种 方法 是 直接 以 特 
征 表 征 表 达 查 询 ， 比 如 :“ 寻 找 这 样 的 图 像 ，50% 的 区域 为 红色 ， 并 且 包 含 具 有 特定 方向 和 
粒度 特征 的 纹理 ”” 如 果 查 询 是 以 全 部 特征 的 一 个 子 集 来 表达 的 (例如 在 查询 中 仅 指定 颜色 
特征 )， 那 么 在 计算 距离 时 便 仅 使 用 这 个 特征 子 集 。 

显然 ， 我 们 可 以 根据 不 同 应 用 对 查询 形式 进行 推广 《对 于 给 定 的 特征 表示 )， 比 如 允许 
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对 查询 项 进行 不 同 的 布尔 组 合 。 对 于 图 像 数 据 ， 还 可 以 对 查询 语言 进行 特殊 处 理 ， 使 其 发 挥 
空间 关系 《比如 ,“ 寻 找 对 象 1 在 对 象 2 之 上 的 图 像 ”) 和 序列 关系 的 优势 《比如 “寻找 这 样 
的 视频 序列 : 先是 足球 球员 射门 ， 然 后 是 队员 们 在 庆祝 ”)。 

表示 图 像 和 查询 的 特征 向 量 形式 与 前 面 讨论 的 用 于 文本 检索 的 向 量 空间 表示 非常 相 
似 。 一 个 主要 的 差异 是 图 像 特征 通常 是 一 个 实数 ， 例 如 指出 了 图 像 某 一 区 域 的 特定 颜色 
强度 ， 而 词 条 向 量 中 的 词 条 分 量 通常 是 某 种 形式 的 加 权 计 数 ， 代 表 了 这 个 词 条 在 文档 中 
出 现 的 频繁 程度 。 不 过 ， 这 两 种 问题 都 是 根据 内 容 检索 的 问题 ， 这 一 共同 特征 决定 了 用 
于 文本 检索 的 很 多 技术 也 适用 于 图 像 检索 应 用 ， 例 如 使 用 主 分 量 分 析 降 低 特征 空间 的 维 
度 ， 以 及 通过 Rocchio 算法 进行 相关 性 反馈 以 改善 图 像 检索 过 程 的 性 能 。 


14.5.4 图像 恒定 性 


对 于 针对 图 像 的 根据 内 容 检索 问题 ， 我 们 必须 记 住 〈 至 少 对 于 目前 的 技术 能 力 来 说 是 这 
样 的 ) 实际 上 我 们 仅 能 使 用 很 有 限 的 语义 概念 ， 而 且 是 建立 在 相当 简单 的 “低级 ”测量 结果 
上 的 ， 比 如 上 颜色、 纹理、 以 及 对 象 的 简单 几何 特征 。 在 可 视 数据 中 经 常 存在 很 多 歧 变 ， 比 如 
平移 、 旋 转 、 非 线性 失真 、 比 例 变化 和 亮度 变化 〈 阴 影 、 遗 挡 〈occlusion)、 照 明 等 )。 人 类 
的 视觉 系统 能 够 轻松 地 处 理 这 些 歧 变 ， 举 例 来 说 ， 对 于 从 完全 不 同 角度 、 在 不 同 光线 下 、 从 
不 同 距 离 拍摄 出 的 同一 个 对 象 的 两 张 照片 ， 人 类 可 以 很 容易 地 提取 出 相同 的 语义 内 容 《 比 如 
“这 是 在 1995 年 以 后 拍摄 的 我 家 房屋 ”)。 

然而 ， 我 们 前 面 讨论 的 根据 内 容 检索 方法 通常 无 法 在 发 生 了 这 些 歧 变 的 情况 下 保持 恒定 
性 。 比 例 、 亮 度 或 观察 角度 的 不 同 通常 都 会 改变 特征 的 测量 结果 ， 从 而 使 景物 的 歧 变 版 本 出 
现在 特征 空间 中 完全 不 同 的 位 置 (与 景物 的 原始 版 本 相 比 )。 换 句 话 来 说 ， 检 索 的 结果 会 随 
着 这 些 歧 变 而 变化 ， 除 非 把 这 种 对 歧 变 的 恒定 性 (distortion-invariant〉 设计 到 特征 表示 之 中 。 
不 过 ， 目 前 仅 知道 适用 于 有 限 可 视 环 境 的 抗 层 变 特征 表示 ， 比 如 刚性 对 象 的 线性 变换 ， 而 对 
于 一 般 的 非 刚性 对 象 非 线性 变换 的 情况 还 不 清楚 。 


145.5 ”图 像 检 索 的 推广 


为 了 对 图 像 检索 问题 加 以 总 结 ， 我 们 注意 到 可 以 把 图 像 这 个 术语 的 解释 作 进一步 推 
广 ， 使 其 不 仅 限于 我 们 前 面 所 描述 的 现实 世界 中 景物 的 图 像 (通常 是 由 照相 机 产生 的 ) 
这 种 隐 含 解释 。 更 一 般 地 讲 ， 图 像 数 据 可 以 嵌入 到 文本 文档 中 《〈 比 如 书 和 网 页 )。 其 他 
的 图 像 形式 包括 手工 素描 〈 或 者 手写 文本 、 公 式 )、 油 画 、 线 路 图 〈 比 如 建筑 和 工程 上 
使 用 的 )、 图 表 、 曲 线 、 地 图 等 等 。 显 然 对 于 这 些 情 况 中 的 每 一 种 ， 都 必须 针对 具体 的 
应 用 来 设计 检索 的 方法 ， 不 过 前 面 讨论 的 很 多 一 般 原理 还 是 适用 的 。 视 频数 据 的 自动 
索引 和 交互 查询 为 我 们 提供 了 更 大 的 挑战 和 机 遇 。 比 如 说 ， 对 于 像 美 国有 线 新 闻 网 络 
这 样 的 电视 新 闻 组 织 来 说 ， 如 果 能 搜索 视频 档案 并 挑选 出 某 种 类 型 的 图 像 ， 那 么 会 是 
非常 有 价值 的 。 
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14.6 ”时 间 序 列 和 序列 检索 


在 时 间 序 列 (time series) 和 序列 数据 集合 中 高 效 而 又 准确 的 定位 有 意义 模式 的 问题 对 
于 很 多 应 用 都 有 重要 意义 ， 比 如 复杂 系统 的 诊断 和 监控 、 生 物 医学 数据 分 析 以 及 对 科研 和 商 。[476] 


A 


业 时 间 序 列 的 探索 性 数据 分 析 。 这 样 的 例子 包括 : 

o 找 出 这 样 的 顾客 : 他 们 相对 时 间 的 消费 模式 和 给 定 的 消费 特征 相似 ; 

@ 在 复杂 的 实时 监控 和 故障 诊断 系统 (比如 航空 中， 搜索 出 与 当前 异常 传感器 信号 

相似 的 以 前 实例 ; 

@ 在 蛋白 质 序列 中 进行 有 噪声 子 串 的 匹配 。 

和 二 维 图 像 数 据 相 比 ， 可 以 把 序列 数据 看 作 是 一 维 的 。 时 间 序 列 (time series) 数据 或 
许 是 最 著名 的 例子 ， 它 的 一 系列 观察 结果 是 相对 时 间 测 量 出 的 ， 因 此 可 以 用 时 间 变 量 + 来 索 
引 每 个 观察 值 。 这 种 测量 经 常 是 按 固 定时 间 间 隔 进 行 的 ， 这 样 便 可 以 不 失 一 般 性 地 把 t 看 作 
取 值 为 1 到 了 的 整数 。 在 每 个 时 间 : 的 测量 结果 可 能 是 多 元 的 《并 非 仅 限于 单一 的 测量 值 )， 
比如 每 天 的 股市 收盘 价格 是 各 个 股票 价格 的 集合 。 时 间 序 列 数据 的 应 用 非常 广泛 ， 对 应 的 领 
域 也 五 花 八 门 ， 比 如 经 济 、 生 物 医学 、 生 态 学 、 大 气 和 海洋 科学 、 控 制 工程 以 及 信号 处 理 等 。 

序列 数据 (sequential data) 的 概念 比 时 间 序 列 数据 的 概念 更 广 ， 因为 序列 数据 不 一 定 是 
时 间 的 函数 。 例 如 ， 在 计算 生物 学 中 ， 蛋 白质 是 以 其 在 蛋白 质 序列 中 的 顺序 位 置 来 索引 的 。 
(当然 也 可 以 把 文本 看 作 是 另 一 种 形式 的 序列 数据 ， 但 是 通常 把 它 看 作 单独 的 一 种 数据 类 
型 。) 

与 图 像 和 文本 数据 一 样 ， 很 多 场合 都 要 存储 庞大 的 序列 数据 集合 。 例 如 ，( 美 国 ) 国 家 航 
空 和 字 宙 航行 局 (NASA) 的 航天 飞机 在 每 次 执行 任务 时 每 秒 钟 要 存储 几 千 个 传感器 的 数据 。 
对 于 持续 几 天 的 任务 来 说 ， 存 储 的 数据 量 是 很 大 的 《每 次 任务 的 数据 都 在 10G 字 节 数量 级 ， 
至 今 已 执行 了 100 多 次 任务 )。 

可 以 把 这 种 情况 下 的 检索 描述 为 ， 寻 找 和 给 定 查询 序列 O 最 佳 匹 配 的 子 序 列 。 例 如 ， 
对 于 航天 飞机 数据 ， 工 程 师 或 许 观 察 到 一 个 可 能 异常 的 传感器 行为 《表示 为 一 个 很 短 的 查询 
序列 CO)， 并 希望 断定 在 以 前 的 飞行 中 是 否 存在 类 似 的 行为 。 


146.1 ”时间 序列 数据 的 全 局 模型 


传统 的 时 间 序 列 建 模 技术 (比如 统计 方法 ) 主要 是 建立 在 全 局 线性 模型 基础 上 的 ， 就 像 
第 6 章 中 所 讨论 的 。 典 型 的 例子 便 是 Box-Jenkins 自 回归 模 型 族 ， 该 方法 把 当前 值 y(D 模 拟 成 
过 去 值 y(t -局 的 加 权 线 性 组 合 ， 再 加 上 一 个 额外 的 噪声 项 : 


k 
yO =J ayti) +e) (14.7) 
i=l 
其 中 必 是 加 权 系数 ，e(D) 是 时 间 + 的 噪声 〈 通 常 被 假定 为 均值 为 零 的 高 斯 函数 )。 之 所 以 
叫 “自动 回归 ”是 因为 使 用 了 回归 模型 的 思想 (在 同一 变量 的 过 去 值 上 进行 回归 )。 可 以 使 
用 第 11 章 中 非常 熟悉 的 线性 回归 技术 来 根据 数据 估计 ww。 并 用 通常 的 惩罚 似 然 和 交叉 验证 
技术 来 决定 模型 结构 〈 也 就 是 阶 数 KD 
这 种 类 型 的 模型 和 y 的 光谱 表示 有 着 密切 的 关系 , 因为 对 于 平稳 的 时 间 序 列 过 程 y 来 说 ， 
确定 各 个 a 也 就 确定 了 它 的 频率 特征 。 因 此 很 明显 ， 自 回归 模型 仅 对 于 可 以 完全 使 用 平稳 光 
谱 表示 刻画 的 时 间 序 列 是 有 意义 的 ， 比 如 频率 特征 不 随时 间 变 化 的 线性 系统 。 
Box-Jenkins 方法 的 一 个 重要 贡献 已 经 被 证 明 ， 如 果 在 时 间 序列 中 存在 可 识别 的 系统 性 
非 平稳 分 量 〈 比 如 某 种 趋势 )， 那 么 很 多 情况 下 可 以 把 这 个 不 平稳 分 量 删除 使 这 个 时 间 序列 
变 成 平稳 的 形式 。 举 例 来 说 ， 像 国内 生产 总 值 和 道琼斯 指数 这 样 的 经 济 指标 中 包含 着 固有 的 
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上 升 趋势 (总 体 来 看 )， 通 常 要 在 建 模 前 将 这 种 趋势 删除 。 对 于 非 平稳 性 比较 复杂 的 情况 ， 
另 一 种 有 用 方法 是 假定 这 个 信号 是 相对 时 间 局 部 平稳 (locally stationary) 的 。 举 例 来 说 ， 语 
音 识 别 系统 是 这 样 工作 的 : 首先 用 来 自 不 同 线性 系统 的 序列 模拟 人 类 声 道 和 口腔 产生 的 语音 
序列 。 然 后 便 用 这 些 线性 系统 的 混合 来 定义 模型 ， 并 且 假 定数 据 是 从 这 些 不 同 分 量 线性 系统 
通过 某 种 形式 的 切换 过 程 〈 通 常 是 使 用 马尔 可 夫 过 程 ) 产生 的 。 

非 线性 的 全 局 模型 对 公式 14.7 进行 了 推广 ， 比 如 可 以 允许 yD 非 线性 地 依赖 过 去 值 ; 





k 

y(t) = (ewe oF e(t) (14.8) 
i=l 

其 中 8(.) 是 非 线性 的 。 

这 些 通用 形式 〈 不 论 是 线性 还 是 非 线 性 ) 的 模型 有 很 多 扩展 版 本 。 它 们 共有 的 一 个 关键 
特征 是 ， 如 果 给 定 一 个 初始 条 件 x(0) 以 及 模型 的 参数 ， 那 么 这 个 过 程 (y 相对 时 间 的 函数 分 
布 ) 的 统计 量 便 完全 确定 了 ， 也 就 是 说 ， 这 些 模型 为 时 间 序 列 的 预期 行为 提供 了 一 种 全 局 性 
的 简单 描述 。 

从 数据 挖掘 的 角度 来 看 ， 如 果 我 们 假定 这 样 的 全 局 模型 充分 地 描述 了 潜在 的 时 间 序 列 ， 
那么 我 们 就 可 以 使 用 模型 参数 〈 比 如 上 面 的 各 个 权 ) 作为 表示 数据 的 基础 ， 而 不 使 用 原始 数 
据 本 身 。 举 例 来 说 , 如 果 给 定 一 个 不 同时 间 序列 的 集合 (比如 不 同 股票 每 天 的 相对 时 间 收 益 )， 
那么 我 们 可 以 为 每 个 时 间 序 列 拟 合 一 个 全 局 模型 〈 也 就 是 估计 出 模型 的 p 个 参数 )， 然 后 在 
p 维 参数 空间 中 进行 相似 性 计算 。 如 果 同 一 种 模型 结构 不 能 完全 模拟 所 有 的 不 同时 间 序 列 ， 
那么 这 种 方法 便 会 产生 问题 。 对 这 一 问题 的 一 种 解决 方案 是 使 用 一 种 嵌 套 的 模型 结构 也 就 
是 ， 采 用 一 系列 赂 套 的 复杂 度 递增 的 模型 结构 )， 并 且 用 最 高 阶 的 模型 来 拟 合 所 有 时 间 序 列 。 

通过 把 时 间 序 列表 示 为 参数 向 量 ， 我 们 实质 上 是 又 一 次 使 用 了 本 章 前 面 表示 文档 和 图 像 
的 方法 。 接 下 来 ， 我 们 便 可 以 在 参数 向 量 空间 中 定义 相似 性 尺度 、 在 这 个 空间 中 定义 根据 内 
容 检索 的 查询 、 等 等 。 

在 这 个 领域 中 有 一 种 有 趣 的 数据 挖掘 应 用 一 一 被 称 为 关键 字 命 中 (keyword spotting) 的 
语音 识别 技术 。 举 例 来 说 ， 假 设 有 一 个 监控 和 记录 国际 电话 对 话 的 国家 安全 组 织 〈 忽 略 道德 
和 法 律 问题 !)。 从 安全 角度 来 说 ， 监 控 的 目标 是 侦探 可 颖 行为 。 很 显然 不 可 能 让 人 来 天 天 监 
昕 记录 下 的 大 量 电话 对 话 。 对 这 一 问题 的 一 种 自动 方法 是 建立 感 兴趣 的 关键 字 的 统计 模型 。 
举例 来 说 ， 我 们 可 以 为 每 个 感 兴趣 的 特定 关键 字 (根据 训练 数据 ) 构建 不 同 的 马尔 可 夫 线 性 
切换 模型 (就 像 前 面 讨论 的 那样 )。 然 后 让 各 个 输入 语音 流 平行 地 穿 过 每 个 模型 ， 如 果 观 察 
到 语音 数据 的 似 然 超 过 了 任 一 个 模型 的 特定 阐 值 ， 那 么 便 认为 检测 到 了 相应 单词 ， 并 标记 出 
这 个 语音 流 和 鉴别 出 的 单词 及 时 间 位 置 。 对 于 这 样 的 系统 ， 自 然 要 考虑 大 量 实际 工作 量 问题 ， 
但 是 基本 的 概念 就 是 使 用 一 系列 训练 好 的 模型 可 适应 的 监控 实时 数据 流 以 探测 感 兴趣 的 模 
式 。 


14.6.2 ”时 间 序 列 的 结构 和 形状 


考虑 一 个 实数 值 时 间 序 列 的 子 序列 @ = [9(D), …, q(ttm)]， 和 一 个 长 得 多 的 归档 时 间 
FRX = [x(1)，…, xD]， 并 将 前 者 称 为 查询 序列 。 我 们 的 目标 是 在 和 X 中 找到 和 @ 最 相似 
的 一 个 子 序列 。 实 际 情况 下 ，X 可 能 是 由 许多 单个 的 时 间 序 列 组 成 的 ， 但 是 为 了 简单 ， 
我 们 假定 它们 已 经 被 合成 一 条 长 的 序列 。 此 外 ， 为 了 简单 我 们 还 假定 X 和 O 都 是 使 用 相 


A 
~ 
oo 


oO 


fl RAPP A TAT TH) BS, HA, 2 递增 1 所 对 应 的 时 间 对 二 者 是 相同 的 。 举 例 来 说 ， 
o 可 以 是 一 个 患者 的 实时 脑 电 图 快照 ， 而 X 可 以 是 已 经 有 诊断 结果 的 其 他 患者 的 脑 电 图 
档案 。 

显然 ， 在 这 种 情况 下 ， 关 于 如 何 定义 相似 性 〈similarity) 有 相当 的 自由 度 。 注意， 上 一 
节 所 讲 的 一 般 方法 仅 描 述 了 一 个 时 间 序 列 的 全 局 特征 ， 根 本 没有 提供 对 局 部 形状 (shape) 
的 描述 ， 比 如 峰值 等 。 通 常 ， 全 局 模型 平均 了 这 些 局 部 的 结构 特征 ， 也 就 是 说 ， 在 全 局 模型 
表示 中 没有 保留 它们 。 然 而 ， 对 于 很 多 时 间 序 列 来 说 ， 用 结构 特征 来 描述 它们 会 更 自然 。 一 
个 很 好 的 例子 是 心脏 监控 中 的 S-T 波形 ， 它 有 非常 独特 的 可 视 特征 。 

一 种 方法 是 在 整个 X 数据 中 序列 化 地 扫描 查询 O， 顺 着 X 每 次 把 查询 O 移动 一 个 时 间 
点 ， 同 时 计算 出 每 个 时 间 点 的 距离 尺度 〈 比 如 欧 氏 距离 )。 通 常 ， 这 样 做 不 仅 开 销 非常 惊人 
(对 于 亦 力 方法 来 说 复杂 度 是 O(m7))， 而 且 其 焦点 依然 集中 在 低层 次 (low-level〉 的 数据 
采样 点 ， 而 不 是 高 层次 的 结构 特征 ， 比 如 峰值 、 高 原 、 走 势 和 波 谷 等 。 直 接 计算 出 的 欧 氏 距 
离 也 对 查询 Oo 和 数据 X 中 的 微小 歧 变 异常 敏感 ， 比 如 ， 只 要 把 “理想 ”的 查询 C 沿 时 间 轴 
轻微 “ 拉 长 ”， 就 会 导致 计算 出 的 距离 剧烈 增 大 ， 即 使 从 视觉 观察 的 角度 来 看 查询 O 和 数据 

480| 大 仍 可 以 很 好 地 匹配 。 

这 种 情况 下 的 一 种 流行 方法 是 ， 先 局 部 化 地 估计 出 查询 O 和 归档 信号 X 的 基于 形状 特 
征 ， 然 后 在 较 高 的 层次 上 进行 匹配 。 这 样 可 以 使 匹配 过 程 有 很 大 的 计算 优势 ， 因 为 抽象 实质 
上 是 一 种 压缩 数据 ， 可 以 把 信号 的 很 多 无 关 细节 都 忽略 掉 。 更 重要 的 是 ， 它 可 以 以 一 种 适合 
于 人 类 解释 的 形式 提取 结构 化 的 信息 。 这 种 技术 的 一 个 典型 实例 是 用 分 段 线性 化 或 者 多 项 
式 ) 的 片段 来 逼近 信和 号。 然后 把 分 成 段 的 序列 表示 为 局 部 参数 化 的 曲线 列表 ， 而 后 便 可 以 直 
接 根 据 参 数 描述 计算 结构 特征 〈 比 如 峰 和 谷 )。 可 以 使 用 概率 模型 把 期 望 的 形状 和 变化 性 按 
这 些 特 征 进行 参数 化 ， 这 样 便 得 到 一 族 灵 活 的 可 变形 的 模型 模板 。 可 以 把 在 数据 档案 X PO 
E o 的 问题 表达 为 这 样 的 一 个 搜索 问题 ， 给 定 8 的 概率 模型 ， 在 X 中 搜索 局 部 区 域 使 这 个 
区 域 中 数据 的 似 然 最 大 化 。 对 于 用 全 局 统计 模型 不 易 处 理 的 信号 类 型 这 种 表示 特别 有 用 ， 比 
如 包含 暂 态 〈transient)、 阶 跃 函数 (step function)、 趋 势 和 其 他 各 种 类 似 某 一 形状 (shapelike ) 
模式 的 不 稳定 信号 。 

对 于 离散 值 序列 ， 我 们 也 可 以 寻找 较 长 序列 中 的 子 模式 ， 例 如 ， 寻 找 生 物 序列 数据 中 出 
现 的 图 案 (motift)。 对 于 这 类 问题 有 许多 不 同 技术 ， 从 匹配 两 个 串 的 编辑 距离 Cedit-distance) 
的 非 参数 方法 到 利用 产生 式 〈generative) 马尔 可 夫 模型 〈 或 隐 马 尔 可 夫 模型 ) 的 参数 模型 
方法 。 


14.7 本章 归纳 


根据 内 容 检索 是 交互 式 探索 大 型 数据 库 的 一 种 重要 方法 。 尤 其 是 对 于 图 像 、 文 本 和 序列 
这 样 的 数据 类 型 ， 根 据 内 容 检索 算法 在 很 多 领域 都 有 重要 的 应 用 。 然 而 ， 要 实现 普 近 适用 的 
算法 需要 解决 儿 个 长 期 困扰 人工 智能 和 模式 识别 领域 的 根本 问题 ， 比 如 NLP 问题 的 通用 解 
法 (对 于 文本 ) 以 及 一 般 性 的 图 像 理 解 问题 (对 于 图 像 )。 简 而 言 之 ， 要 开发 出 可 以 和 人 类 
的 大 脑 相 媲美 的 能 从 文本 和 图 像 这 类 数据 中 自动 检索 语义 信息 的 通用 方法 ， 我 们 还 有 很 长 的 
[481 REE. 
尽管 如 此 ， 在 很 多 实际 应 用 中 由 于 数据 的 绝对 数量 太 大 以 致 于 手工 无 法 分 析 ， 研 究 人 员 
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还 是 开发 出 了 很 多 根据 内 容 检索 的 技术 ， 这 些 技术 主要 是 依赖 于 所 谓 的 “低级 请 义 内 容 ” 
比如 说 我 们 可 以 根据 像 颜 色 和 纹理 这 样 的 低级 特征 来 检索 图 像 ， 根 据 单词 的 伴 同 出 现 来 检索 
文本 。 

经 常 使 用 的 可 以 跨越 不 同 数据 类 型 的 一 种 常见 检索 策略 大 体 遵从 以 下 的 步 又 : 

L 决定 一 个 鲁 标的 特征 集合 用 以 描述 感 兴趣 的 对 象 。 

2， 利 用 这 些 特征 将 原始 对 象 〈 文 本 、 图 像 、 序 列 ) 转换 为 固定 长 度 的 向 量 表征 。 

3、 在 这 个 空间 中 ， 利 用 现 有 丰富 的 多 元 数据 分 析 理论 计算 距离 、 进 行 主 成 分 分 析 等 等 
匹配 查询 。 

我 们 可 以 把 这 样 的 系统 称 为 第 一 代 根 据 内 容 检索 系统 。 当 然 在 有 些 领域 中 他 们 是 非常 有 
用 的 ， 网 络 搜索 引擎 和 QBIC 系统 证 明了 这 一 点 。 然 而 很 显然 ， 根 据 内 容 检索 问题 还 远 未 彻 
底 解决 ， 还 有 相当 大 的 空间 有 待 探索 。 





14.8 补充 读物 


Sparck Jones and Willett (1997) 文集 中 包含 了 很 多 关于 信息 (文本 ) 检索 的 经 典 论文 ， 
其 中 的 一 些 评论 非常 深入 广泛 地 探讨 了 检索 问题 和 研究 中 的 很 多 核心 主题 。Van Rijsbergen 
(1979), Salton and McGill (1983) 以 及 Frakes and Baeza-Yates (1992) 提供 了 覆盖 这 一 领 
域 的 更 多 介绍 。Salton (1971) 包含 了 关于 向 量 空间 表示 的 许多 早期 莫 基 思想 ，Raghavan and 
Wong (1986) 透视 了 一 些 后 来 的 思想 。Salton and Buckley (1988) 讨论 了 不 同 的 词 条 加 权 
方法 ， 虽 然 很 简要 但 是 覆盖 面 很 广 ， 尤 其 是 突出 介绍 了 TF-IDF 方法 。Harman (1993-1999) 
记录 了 TREC 会 议 ，Harman (1995) 对 TREC 试验 做 了 一 个 很 有 价值 的 综述 。 在 《Journal of 
the American Society for Information Science) (1996) 的 特刊 中 包含 了 有 关 评 价 文本 检索 问题 
的 更 新 讨论 。Witten, Moffat, and Bell (1999) 精彩 地 讨论 了 存储 和 访问 庞大 的 文本 文档 所 涉 
及 的 数据 工程 方面 的 很 多 实践 问题 。 

Deerwester et al. (1990) 首次 清晰 地 论证 LSI 在 信息 检索 中 的 应 用 。Landauer and Dumais 
(1997) 对 使 用 LSI 构建 语言 和 知识 获取 认 知 模型 给 出 了 发 人 深 省 的 讨论 。Berry (1992) 
以 及 Berry, Drmvac, and Jessup (1999) 讨论 了 在 像 词 条 -文档 表示 这 样 的 庞大 系数 矩阵 上 进 
行 SVD 计算 的 一 般 技术 。Hofmann (1999) 介绍 了 降低 文档 - 词 条 算 阵 维度 的 基于 混合 模型 
的 概率 方法 ， 为 文 当 建 模 提供 了 一 个 通用 的 概率 框架 ， 而 且 展 示 出 了 很 好 的 实验 效果 。 

“文本 控 据 ”这 一 短语 是 用 来 描述 从 文本 文档 中 半自动 的 发 现 新 的 知识 的 数据 挖 握 应 
Fl. Swanson (1987) 以 及 Swanson and Smalheiser (1994, 1997) 介绍 了 这 一 领域 的 一 系列 
有 趣 研究 ， 他 们 使 用 自动 的 搜索 算法 发 现 了 在 医学 文献 中 看 起 来 无 关 的 子 领 域 间 的 有 趣 关 
系 。 

Rocchio (1971) 介绍 了 相关 性 反馈 的 最 初 算法 。Salton and Buckley (1990) 提供 了 相 
关 性 反馈 对 提高 查 全 率 - 查 准 率 性 能 的 实验 证 据 ，Buckley and Salton (1995) 讨论 了 Rocchio 
算法 的 最 佳 方式 。Resnick et al. (1994) 以 及 Shardanand and Maes (1995) 介绍 了 关于 协同 
过 滤 的 最 初 研究 。Breese, Heckerman, and Cadie (1998) 讨论 了 如 何 对 基于 模型 的 协同 过 滤 
进行 试验 评价 。Konstan and Riedl (出 版 过 程 中 ) 概括 了 自动 推荐 系统 在 电子 商务 应 用 中 的 
许多 实践 问题 。Dumais et al. (1998) 介绍 用 于 分 类 文本 的 支持 向 量 机 。 

Faloutsos et al. (1994) 和 Flickner et al. (1995) 较为 详细 地 介绍 了 QBIC 系统 。 第 一 篇 
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论文 讨论 了 特征 、 距 离 尺 度 、 和 使 用 的 索引 方案 ， 第 一 篇 论文 多 少 更 集中 于 用 户 接 口 问 题 。 
其 他 讨论 针对 图 像 和 视频 的 根据 内 容 查询 系统 的 文献 包括 : Kato，Kurita and Shimogaki 
(1991), Smoliar and Zhang(1994), Pentland, Picard, and Sclaroff¢ 1996), 以 及 Smith and Chang 

483 (1997). Rui et al. (1998) 讨论 了 在 图 像 检 索 中 相关 性 反馈 的 用 法 。Maybury (1997) 编辑 
的 文集 概括 了 检索 多 媒体 对 象 〈 比 如 图 像 和 视频 ) 这 一 领域 的 最 新 成 果 。 

Box and Jenkins (1976) 是 讨论 时 序数 据 线性 全 局 模型 基础 的 综合 性 经 典 教材 。Chatfield 
(1989) 讨论 的 范围 更 为 广泛 --- 些 ， 而 且 循序 渐进 的 介绍 了 时 间 序 列 的 概念 ， 特 别 适 合 于 不 
大 熟悉 这 一 领域 的 读者 。MacDonald and Zucchini (1997) 全 面 地 描述 了 对 离散 值 时 间 序 列 
建 模 的 统计 方法 ，Durbin et al. (1998) 列举 了 序列 建 模 和 模式 识别 技术 在 蛋白 质 序列 和 计算 
生物 学 有 关 问 题 上 的 应 用 。 

有 很 多 不 同 的 技术 可 以 高 效 地 逼近 匹配 时 间 序 列 的 子 序列 。Faloutsos，Ranganathan and 
Manolopolous (1994) 运用 的 方法 是 很 典型 的 。 首先 把 序列 分 解 成 各 个 窗 ， 再 从 每 个 窗 中 提 
取 特 征 ， 然 后 便 可 以 利用 一 种 R* 树 结构 在 特征 空间 中 进行 高 效 的 匹配 。Agrawal et al. (1995) 
提出 了 另 一 种 方法 ， 可 以 处 理 振幅 的 变化 、 偏 移 、 和 数据 中 的 “无 所 谓 ” 区 域 ， 距 离 是 由 原 
始 序列 的 包 络 (envelope) 决定 的 。Berndt and Clifford (1994) 使 用 动态 的 时 间 弯 曲 (time- 
warping) 方法 允许 在 把 查询 O 匹配 到 参考 序列 时 时 间 轴 具有 “弹性 ”。 另 一 种 流行 的 方法 
是 把 形状 的 概念 抽象 化 。 使 用 关系 树 来 捕 提 序列 中 波峰 (或 波 谷 〉 的 层次 ， 然 后 使 用 数 匹 配 
算法 来 比较 两 个 时 间 序 列 (Shaw and DeFigueiredo (1990); Wang et al., (1994)). Keogh and 
Smyth (1997) 以 及 Ge and Smyth (2000) FIX T anf AEI E EE ARROA RUER 
并 探测 时 间 序 列 形状 ， 以 及 这 些 方法 的 实际 应 用 ， 交 互 式 分 析 航 天 飞机 传感器 数据 和 联机 监 

控 半 导体 生产 数据 。 


附录 随机 变量 


A.1 一 元 随机 变量 回顾 


一 元 随机 变量 就 是 单一 的 随机 变量 ， 设 其 为 X。 如 果 X 的 定义 域 是 有 限 的 或 者 说 是 可 
数 的 )， 那 么 我 们 可 以 通过 列 出 X 取 每 个 可 能 值 x (也 就 是 x e {xe …, x} 的 概率 来 描述 
的 不 确定 性 。 我 们 把 X 的 概率 分 布 写 作 p(X = x)， 或 者 通常 用 p(x) 来 表示 单个 值 的 概率 分 布 。 
“xe MBCA PRI, BUSS RTL, MEERA (pm), +. p(xw)} BRE ARE RS BK 

(probability mass function). IER, FIA (DEH m 个 数字 的 集合 {p(x0), -PE P(X) 
是 指 这 个 集合 中 的 某 个 〈 任 意 ) 成 员 。 随 机 变量 X RRDA AA (cumulative distribution 
function) PQ) CRUD FSF x 的 值 的 概率 ( 当 x 值 可 以 排序 时 )。 

也 可 以 为 连续 的 随机 变量 〈 可 以 取 一 个 区 间 上 或 实数 轴 上 任意 值 的 变量 ) 定义 累积 分 布 
函数 。 这 种 情况 下 我 们 通常 用 F(x) 或 P(x) 来 表示 累积 分 布 ， 并 用 flx) 或 p(x) 表 示 F(x) 的 导 
数 一 一 x 的 概率 密度 函数 (probability density function )( 很 多 时 候 就 简称 为 “密度 函数 ”)。 
这 个 函数 给 出 了 观察 值 位 于 围绕 x 的 无 穷 小 区 间 内 的 概率 。 为 了 简便 ， 本 书 经 常 仅 给 出 密度 
函数 形式 的 描述 ， 但 是 类 似 的 结论 也 适用 于 概率 质量 函数 的 情况 。 数 学 统计 方面 的 入 门 教材 
更 正规 的 描述 了 这 些 概念 ， 不 过 这 些 非 正 式 的 定义 足以 满足 本 书 的 需要 了 。 

由 于 很 多 时 候 既 使 用 符号 p(x) 又 使 用 符号 fx) 来 表示 连续 变量 x 的 概率 密度 函数 。 因 此 
应 该 从 上 下 文 分 清 它 是 x 的 概率 质量 函数 还 是 概率 密度 函数 。 

随机 变量 的 随机 性 是 由 很 多 不 同 原因 造成 的 一 一 实质 上 也 就 是 不 确定 性 的 来 源 ， 或 许 我 
们 所 观察 的 是 从 总 体 中 随机 选取 的 一 个 成 员 ; 或 许 测量 值 存在 系统 误差 ,或许 X 是 不 可 以 直 
接 观 测 的 ， 等 等 。 我 们 经 常 对 这 种 随机 性 进行 近似 ， 假 定 实际 观察 值 是 由 可 能 值 的 某 个 著名 
分 布 产 生 的 。 某 些 类 型 的 分 布 对 于 数据 挖掘 特别 有 价值 ， 附 录 A.2 中 介绍 了 其 中 的 一 部 分 。 
包括 正 态 (也 就 是 高 斯 ) 分布 和 泊 松 分 布 。 

我 们 经 常 使 用 第 2 章 介 绍 的 均值 (也 就 是 期 望 值 或 期 望 ) 概念 。 对 于 一 个 样本 〈 或 者 是 
有 限 总 体 ) 来 说 ， 均 值 就 是 平均 值 ， 可 以 通过 把 样本 〈 或 有 限 总 体 ) 中 所 有 值 的 和 除 以 值 的 
总 个 数 来 得 到 。 更 一 般 地 讲 ， 假 定 x 值 在 总 体 中 出 现 的 概率 是 pO) BARE XX 对 于 总 体 的 
均值 就 是 》 xpa) 。 然 而 ， 如 果 X 可 以 取 连 续 的 值 ， 那 么 说 特定 确切 值 x 发 生 的 概率 是 没 

意义 的 ， 因 为 确切 值 发 生 的 概率 为 0。 这 时 我 们 考虑 和 位 于 宽度 为 @x 的 很 小 区 间 内 的 概率 ， 
并 求 当 这 个 宽度 趋 近 于 0 时 和 > fsx 的 极限 值 ， 这 样 便 用 积分 代替 了 求 和 。 如 果 连 续 


变量 X 的 概率 密度 函数 为 ko， 那么 它 的 期 望 值 是 | xf (dx 。 


符号 巨 经 常 被 用 来 表示 期 望 ， 所 以 随机 变量 X 的 期 望 值 就 是 ELX。 和 希腊 字母 /经 常用 来 
表示 均值 ， 如 果 我 们 必须 明确 被 讨论 的 随机 变量 是 X， 那 么 可 以 使 用 几 。 更 准确 地 讲 ，X 
相对 于 密度 函数 Rx) 的 期 望 值 被 表示 为 Exw[X] 。 注 意 ， 我 们 可 以 把 X 的 函数 g(x) 相 对 于 ftx) 
的 期 望 值 定 义 为 Erle] = f g(x)f(x)dx ， 如 果 我 们 令 g(x) = (x - E[x])?， 那 么 便 得 到 了 方差 


of 的 通常 定义 。 
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期 望 是 一 种 线性 算 子 ， 这 是 一 个 非常 有 用 的 一 般 特 征 。 例 如 ， 这 意味 着 多 个 随机 变量 加 
权 和 的 期 望 值 等 价 于 它们 的 期 望 值 的 加 权 和 ， 不 管 这 些 变量 是 以 何 种 方式 相互 依赖 的 〈 第 4 
章 中 更 精确 地 定义 了 随机 变量 的 依赖 性 )。 

概率 公理 将 不 可 能 发 生 事件 的 概率 赋值 为 0， 将 一 定 事件 的 概率 赋值 为 1。 如 果 两 个 事 
件 不 可 能 一 起 发 生 ， 那 么 一 个 或 另 一 个 发 生 的 概率 是 它们 各 自 概率 的 和 。 因 此 ， 在 抛 硬币 问 
题 中 《〈 得 到 正面 的 概率 是 112)， 得 到 正面 或 背面 的 概率 是 1/2 + 1/2 = 1。 当 多 个 事件 可 以 同 
时 发 生 但 是 又 不 一 定 如 此 时 ， 情 况 就 变 得 更 为 复杂 ， 也 更 有 趣 了 。 这 时 便 产 生 了 多 元 随机 变 
量 的 概念 ， 详 细 的 讨论 参见 第 4 章 。 


A.2 一些 常见 的 概率 分 布 


上 面 讨论 了 概率 分 布 的 一 般 概念 。 下 面 我 们 介绍 一 下 数据 挖掘 中 常用 的 概率 分 布 。 


伯 努 里 分 布 

伯 努 里 分 布 仅 有 两 种 可 能 的 结果 。 可 以 用 这 种 分 布 描述 的 情况 包括 抛 硬币 的 结果 正面 
或 反面 )， 或 者 某 个 顾客 是 否 购买 了 某 种 商品 。 经 常用 0 和 1 表示 观察 结果 ， 如 果 令 p AM 
察 到 1 的 概率 ，(1-p) 为 观察 到 0 的 概率 。 那 么 便 可 以 把 概率 质量 函数 写作 pad -p H 
中 x 取 值 为 0 或 1。 这 一 分 布 的 均值 是 p， 方 差 是 p(1-p)。 注 意 这 种 分 布 仅 有 一 个 参数 ， 也 
就 是 p。 


二 项 分 布 
它 是 对 伯 努 里 分 布 的 推广 ， 描 述 了 在 n 个 独立 的 伯 努 里 试验 《每 个 的 参数 为 P) 中 出 现 


RAR OC RAEN |” 0-0 ， 其 中 x 可 以 取 0 到 
的 整 型 值 。 其 均值 是 np， 方 差 是 np(1-p)。 


多 项 分 布 
多 项 分 布 是 把 二 项 分 布 推广 到 存在 两 种 以 上 结果 的 情况 。 例 如 ， 存 在 种 可 能 的 结果 ， 
第 i 种 发 生 的 概率 为 ppl < i 三 上。 各 个 概率 相 加 的 和 为 1, 这 个 模型 有 大 - 1 THR, 0, 


Pa (因为 Px = 1-2 pp) 


假定 从 一 个 多 项 分 布 中 独立 地 抽取 出 n 个 观察 结果 。 那 么 得 到 第 i 种 观察 结果 的 平均 数 
BA np;， 它 的 均值 是 np,(1-p)。 注 意 ， 因 为 一 种 结果 的 发 生 便 意味 着 其 他 结果 的 不 发 生 ， 
所 以 各 个 结果 是 负 相 关 的 。 事 实 上 ， 第 i 种 和 第 j 种 GAD 结果 间 的 协 方差 是 -npipj。 


泊 松 分 布 

如 果 随 机 事件 是 被 独立 观察 的 ， 且 其 潜在 发 生 率 为 4， 那么 在 长 度 为 + 的 时 间 间 陋 内 我 
们 可 以 期 望 观察 到 个 事件 。 当 然 ， 有 时 我 们 可 能 在 时 间 t 内 没有 观察 到 事件 ， 而 在 其 他 时 
间 里 观察 到 1 个 事件 ， 等 等 。 如 果 发 生 率 很 低 ， 那 么 很 难看 到 很 多 个 事件 (除非 t 非常 大 )。 
描述 这 种 事件 状态 的 分 布 叫 泊 松 分 布 (Poisson distribution)。 它 的 概率 质量 函数 是 (tre xl. 
泊 松 分 布 的 均值 和 方差 是 一 样 的 ， 都 是 1。 

如 果 一 个 二 项 分 布 的 nn 很 大 ， 但 p 很 小 ， 从 而 使 np 为 一 个 常量 ， 那 么 泊 松 分 布 可 以 很 
好 的 近似 这 个 二 项 分 布 。 


正 态 〈 也 就 是 高 斯 ) 分 布 
正 态 分 布 的 概率 密度 函数 具有 如 下 的 形式 : 


1 一 1 2 
GOV27 en “oH | 
其 中 4 是 分 布 的 均值 ，o 是 方差 。 标 准 正 态 分 布 是 均值 为 零 方差 为 1 时 的 特例 。 正 态 分 布 是 
非常 重要 的 ， 这 部 分 是 因为 中 心 极限 定理 的 作用 。 粗 略 地 讲 ， 中 心 极限 定理 的 内 容 是 ，n 个 
观察 结果 的 样本 均值 随 着 n 的 增 大 越 来 越 接近 正 态 分 布 ， 不 论 从 中 抽取 数据 的 总 体 分 布 形式 
如 何 。 这 就 是 为 什么 很 多 统计 过 程 都 建立 在 正 态 分 布 假定 上 的 一 个 原因 。 
正 态 分 布 是 关于 它 的 均值 对 称 的 ， 而 且 其 概率 的 95% 都 位 于 距离 均值 + 1.96 个 标准 差 范围 内 。 


学 生 氏 分 布 ARH) 
考虑 一 个 来 自 于 正 态 分 布 的 样本 ， 已 知 该 分 布 的 标准 差 为 6。 可 以 用 以 下 比例 作为 推理 
其 均值 的 检验 统计 量 
X-H 
o 


Vn 
其 中 是 样本 均值 。 利 用 这 一 比例 ， 我 们 可 以 看 出 这 个 样本 的 均值 偏离 未 知 均值 的 假设 值 多 
远 。 根 据 中 心 极限 定理 (参见 上 面 关 于 正 态 分 布 的 讨论 )， 这 个 比例 服从 正 态 分 布 。 注 意 这 
里 的 分 母 是 一 个 常量 。 当 然 在 实践 中 ， 更 可 能 的 情况 是 在 未 知 标准 差 的 条 件 下 来 推测 均值 。 
REAR LANE RS RRA 





x-4 
s 


Vn 

其 中 s 是 标准 差 的 样本 估计 。 只 要 做 了 这 种 替换 ， 那 么 这 个 比例 便 不 再 服从 正 态 分 布 了 ， 因 
为 分 母 会 随 着 样本 的 变化 而 变化 ， 这 样 便 引入 了 新 的 变量 。 新 比例 的 分 布 比 对 应 的 正 态 分 布 
跨度 更 大 一 一 末端 衰减 更 平缓 〈fatter)， 这 个 分 布 被 称 为 t 分 布 。 注 意 分 布 存在 很 多 分 布 
曲线 一 一 因 样本 的 大 小 不 同 而 不 同 ， 因 为 样本 大 小 影响 了 s 的 变化 。 可 以 用 (n-1) 来 索引 
它们 ， 称 为 分 布 的 自由 度 。 

我 们 也 可 以 这 样 描述 上 面 的 情况 : 如 果 分 子 服从 正 态 分 布 , 分 母 的 平方 服从 卡 方 分 布 ( 参 
见 下 文 )， 那 么 这 样 的 两 个 随机 变量 的 比例 服从 分布。 

t 分 布 的 概率 密度 函数 是 非常 复杂 的 ， 没 有 必要 在 此 列 出 (可 以 从 数理 统计 方面 的 教材 
上 得 到 )。 它 的 均值 是 n -1， 方 差 是 (n-1)/n-3)。 


卡 方 分 布 

如 果 个 值 都 服从 标准 正 态 分 布 ， 那 么 它们 的 平方 和 服从 自由 度 为 n 的 卡 方 分 布 。 该 分 
布 的 均值 为 x， 方差 为 2#。 这 里 也 没有 必要 列 出 这 种 分 布 的 概率 密度 函数 了 一 一 如 果 需 要 的 
话 在 数理 统计 教材 上 很 容易 找到 。 卡 方 分 布 在 检验 拟 合 度 中 应 用 特别 广泛。 


FO 
如 果 u 和 vy 是 相互 独立 的 服从 卡 方 分 布 的 随机 变量 ， 自 由 度 分 别 为 ny Am, BARN 
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说 下 面 的 比例 
pe 2 
n M 
服从 自由 度 为 n fenmi FA., IX PSR IZA FERT ee, eah 
应 用 分 析 。 


多 元 正 态 分 布 
下 面 把 一 元 正 态 分 布 扩展 到 多 个 随机 变量 的 情况 。 令 x = (Gx,，…, 加 ) 表 示 一 个 含有 p 个 
分 量 的 随机 向 量 。 那 么 多 元 正 态 分 布 的 概率 密度 函数 具有 如 下 的 形式 : 


1 -Lp)" En) 
e 2 
Poot 
(2n)2 1512 


其 中 4 是 这 个 分 布 的 p 维 均值 向 量 ，Z 是 p xp 的 协 方差 矩阵 。 

就 像 一 元 正 态 分 布 在 概率 建 模 中 所 起 的 作用 不 可 替代 一 样 ， 多 元 正 态 分 布 也 是 如 此 。 多 
元 正 态 分 布 的 边际 分 布 是 正 态 的 ， 它 的 条 件 分 布 ( 也 就 是 在 给 定 一 部 分 变量 值 的 情况 下 ， 其 
余 变 量子 集 的 联合 分 布 ) 也 是 正 态 的 。 然 而 注意 ， 反 过 来 是 不 成 立 的 : p 个 边际 分 布 是 正 态 
的 并 不 意味 着 总 的 分 布 就 是 多 元 正 态 的 。 
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Additive predictor《 相 加 预报 量 )，393-394 
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specific types 
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ANNs 《人工 神经 网 络 )，391-393 
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Autoregressive models ( 自 回 归 模 型 )，199-200，202，478 
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BIC (RAPA SERE), 225-227, 235, 292, 380 
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Binomial distributions 〈 二 项 分 布 )，487 
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Bootstrap methods ( 自 展 方 法 )，116，360-361 
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Bracketing methods (ATES AE), 254-255 
Branch-and-bound concept (4) 4X5E FHA), 246-247 
Breadth-first search 〈 广 度 优 先 搜索 )，245 

Brent’s method (Brent 方法 )，254 
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Canonical parameter 〈 正规 参数 )，388 

CART algorithms 《分 类 和 回归 算法 )，145-151，157，228， 
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Cases 《实例 )，4 
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Categorical variables〈 范畴 型 变量 )，6 
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Central limit theorem 〈 中 心 极限 定理 )，115-116 
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Chance 〈 偶 然 性 )，93-97。 参 见 Uncertainty 

Chernoff faces (Chernoff 面容 )，74 

Chi-squared distributions〈 卡 方 分 布 ) 489-490 

Chomsky hierarchy of grammars (Chomsky 语法 层次 )，202 
City-block metric〈 城 市 衔 区 标 距 )，36 
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Class identifiers (ZERRI), 367 
Class of patterns (483028), 204 
Class variables (分 类 变量 )，329 
Class-conditional approach 《分 类 条 件 法 )，335-339 
Classical hypothesis testing (经 典 假设 检验 )，124-130 
Classical multidimensional scaling (经 典 多 维 缩放 )，86 
Classification document (文档 分 类 )，469-470 
in high dimensions,feature selection for 〈 高 维 中 的 特征 选择 )， 
362-363 
maximal predictive 〈 最 可 能 预测 分 类 )，301 
multilayer perceptrons for〈 用 于 ~ 的 多 层 感知 器 )，153-157 
predictive models for〈 用 于 ~ 的 预测 模型 )，327-366 
classification models and (分 类 模型 与 )，329-339 
evaluating and comparing 《评估 和 比较 )，359-362 
feature selection for high-dimension (高 维 情况 的 
特征 选择 )，362-363 
linear discriminants and (线性 判别 式 与 )，341-343 
logistic discriminant analysis (Logistic 判别 式 分 析 )， 
352-353 
naive Bayes model 〈 朴 素 贝 叶 斯 模型 )，353-356 
nearest neighbor methods 〈 最 近邻 方法 )，347-352 
other methods (其 他 方法 )，356-359 
overview (MEE), 180-182, 327-329 
perceptrons and〈 感 知 器 与 )，339-341 
tree models〈 树 模型 )，343-347 
text 文本)，469-470 
Classification And Regression Trees (CART) 〈 分 类 和 回归 树 )， 
145-151, 153, 228, 335, 345 
Classification leaming (分 类 学 习 )，169，328-329 
Classification models 〈 分 类 模型 ) 
background information (背景 信息 )，329-330 
building real classifiers and (建立 实际 的 分 类 器 与 )，335-339 
decision boundaries 《决策 边界 )，330-331 
discriminative 《判别 )，330-331 
probabilistic models and 《概率 模型 与 )，331-334 
Classifiers 《分 类 器 ) 
building real (建立 实际 的 )，335-339 
evaluating and comparing 《评估 和 比较 )，359-362 
Closed form methods, 249-250 
Cluster analysis (闭合 形式 的 方法 )，12，293-296，323 
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Cluster centers (RÆ Hi), 297 
Clustering techniques (RAHA), 12-13, 279. BM 
Hierarchical clustering; partitionbased clustering algorith 
ms;Probabilistic model-based clustering using mixture models 
Clusters (RX), 137 
Co-occurrence pattems〈 一 起 出 现 的 模式 )，158 
Coding,image (443, R48), 166-167 
Coefficients (ABO, 35, 37, 361 
Collaborative filtering 〈 协 同 过 滤 )，471-472 
Collision (PFR), 404 
Column vectors (FE), 36 
Combinatorial optimization 《组合 优 化 )，236，239 
Commensurability〔 公 度 性 ) , 32 
Complete link method 〈 完 全 链接 方法 )，313 
Complexity of models 模型 的 复杂 度 ) 
nesting and (RÆ), 172 
scoring and (#¥4}), 220-228 
bias-variance 〈 偏 差 -方差 )，221-224 
concepts in comparing general (比较 模型 的 一 般 概 念 )，220-221 
penalizing (EMRE), 224-227 
validation and,external 〈 使 用 外 部 验证 的 )，227-228 
in selecting predictive models 〈 在 选取 预测 模型 中 )，183 
Compression,data 〈 压 缩 ， 数 据 ~)，166 
Computational methods 〈 计 算 方法 )，141，235，291 
Computational resources (计算 资源 )，268 
Concatenation property〈 结 合 性 )，27 
Condensed nearest neighbor methods〔 压缩 最 近邻 方法 ) ，352 
Conditional density (条 件 密度 )，98 
Conditional error rate〈 条 件 误 差 率 )，359 
Conditional independence (“naive”) Bayes model 
〈 条 件 独 立 “朴素 ”) ” 贝 叶 斯 模型 )，353-356 
Conditionally independent variables 〈 条 件 独立 变量 )，99-100， 
289, 354 
Confidence (置信 和 度 》 
interval (RAKED, 115 
itemsets and, frequent (HAR, MÆRI), 430-431 
limits 《~ 边界 )，115 
Confusion matrix 〈 混 请 矩阵 )，361 
Conjugate directions (HEAT), 258 
Conjugate families of distributions (3tHk4r Mn), 122-123 


Constrained optimization 〈 约 束 优化 )，259-260 
Constraints〈 约 束 )，10 

Content retrieval 〈 内容 检 索 )， 参 见 Retrieval by content 
Context-free grammar〈 独 立 于 土 下 文 的 语法 )，202 
Contigency table 〈 列 联 表 )，188 

Contour plots (等 高 线 图 )，65-67 

Convenience samples 《顺便 样本 )，21，48 

“Cookbook” approach (“菜谱 ”方法 )，152-153 

Cosine distance (余弦 距离 )，459 

Counts《 计 数 )，31 

Covariance matrix〈 协 方差 矩阵 )，78，299 
Covariances《 协 方差 )，33-35 

Coverage of a pattern (HAM MRM), 214 

Coxcomb plot ($48), 11 

Credibility interval 〈 可 信 区 间 ) . 123 

Critical region (MJE), 125 

Cross-validation 〈 交 叉 验证 ) 148-149, 227-228, 322, 360 
Cumulative distribution function 〈 累 积分 布 函数 )，485 
Curse of dimensionality 《维度 效应 )，19，193-196 
Customer transactions (顾客 交易 )，405-406 
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Data (数据)， 参 见 Databases; Graphical data exploration 
methods; Measurement and data analysis (4}#7), 166-167 

background information (背景 信息 )，25-26 

basket WHITE), 405-406 

binary 〈 二 值 《二进制 ))，36-37 

categorical (范畴 型 )，187，287-292 

compression (压缩 )，166 

cube 《立方 体 )，419-420 

defined (定义 )，25 

experimental (试验 )，1 

fattened〈 压 平 )，7T，20，43，3S8 

form of (~ 的 形式 )，41-44 

geographic〈 地 理 的 )，44 

high-dimensional (高 维 的 )，194-196，362-363 

image 《图像 )，44 

market-basket 〈 市 场 购物 篮 )，158，429-430 

maximum variability in (最 大 变化 性 )，77 

mode and〔 最 频 值 )，56 





model (#224), 405 
multirelational (E BK RAGE), 42-43 
observational (观察 到 的 )，1 
orthogonality of (~ 的 正 交 人 性)，240 
“out-of-sample” PEZAR , 227, 328, 372 
quality (MÆ), 44-51 
for collection of data (数据 群体 的 )，47-51 
for individual measurements〈 单 个 测量 结果 的 )，44-47 
poor URE), 51 
repeated measures (MSH), 349-350 
sequential 《序列 )，477 
spatial 《空间 ~)，44 
standard 《标准 )，41 
structured, models for〔 结构 化 的 ， 用 于 描述 结构 化 数据 
的 模型 )，197-203 
summarizing (总 结 ~)，54-57 
summary information 归纳 信息 )，52 
suspect (可疑 的 )，50-5] 
intable〔 表 中 的 )，41 
time series 《时 间 序 列 )，476-481 
transforming《 转 化 )，38-41，194-196，363 
unordered categorical, joint distributions for (无 序 范畴 型 数 
据 ， 针 对 ~ 的 联合 分 布 )，187 
warehousing〔 仓 库 )，417-419 
Data management techniques (数据 管理 技术 ), 17-18, 143, 296, 
421-426. ÆA Databases 
Data matrix (WERE), 41, 203-206. BH Data sets 
Data mining 《数据 挖 据 )， 参 见 Data mining algorithms 
analysis of (4}87), 144 
background information 〈 背 景 信 息 )，1-4 
data sets and 〈 数 据 集合 和 一 )，4-9 
databases and〈 数 据 库 和 一 )，421-426 
defined (2X), 1 
dredging and (和 打捞 )，22-23 
fishing and (和 垂钓 )，22-23 
interactive (XER), 11, 450 
keyword spotting and 〈 关 键 字 命中 ，479 
knowledge discovery in databases and 〈 和 数据 库 中 的 知识 
发 现 )，3 
models and (WHW), 1-2, 10-11, 175, 271 
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patterns and (KHAS), 1-2, 10-11, 271 
samples and (和 样本 )，93 
snooping and (MERE), 22-23 
statistics and (和 统计 )，18-21 
structures 《结构 )，9-11，142 
summary information (归纳 )，23-24 
synthesis of (~ 的 合成 )，144 
tasks EJ), 11-15, 142 
visual techniques and (和 和 可视化 技术 )，11 
Data mining algorithms 《数据 挖 扬 算 法 )， 参 见 Score functions 
for data mining algorithms 
background information (背景 信息 )，141-145 
Classification And Regression Trees 《分 类 和 回归 树 )， 
145-151, 153, 228, 335, 345 
components of (~HJZf#), 15-18, 142-145 
defined GEX), 141 
nonscalable versions of 〈 非 伸缩 版 本 )，424 
reductionist viewpoint 化 约 主义 观点 )，151-162 
A Priori algorithm (A Priori 算法 )，157-160 
background information〈 背 景 信息 )，151-153 
multilayer perceptrons for regression and classification and 
《用 于 回归 和 分 类 的 多 层 感 知 器 )，153-157 
vector-space for text retrieval and (用 于 文本 检索 的 向 量 空 
间 )，160-162 
scalable versions of ~ 的 可 伸缩 版 本 )，423-424 
summary information〔 归 纳 信息 )，162-164 
tuple 《组合 )，146-151，154-155 
Data sets (数据 集合 (数据 集 ))。 参 网 Databases 
data mining and, 4-9 
defined 〈 已 定义 的 )， 4, 7 
heterogeneous (MHI), 279 
likelihood of 〈~ 的 似 然 )，108-109 
massive《 海 量 )，421-426 
nature of (~ 的 特征 )，4-9 
pseudo (h~), 425-426 
Data-driven hypothesis generation 〈 以 数据 驱动 的 方式 生成 假 
设 )，53 
Data-squashing (HEHE), 425 
Databases 〈 数 据 库 )， 参 见 Data set 
aggregation in 〈~ 中 的 聚合 )，414 
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background information (背景 信息 )，399-400 
data mining and 〈~ 和 数据 挖 握 )，421-426 
data model in 〈~ 中 的 数据 模型 》，405 
data warehousing 〈 数 据 仓库 )，417-419 
index structures (索引 结构 )，402-404 
knowledge discovery in (~ 中 的 知识 发 现 )，3 
management of data and (~ 和 数据 管理 )，421-426 
manipulating tables and (RAE), 409-412 
massive data sets and (# MYER AI~), 421-426 
memory hierarchy 〈 存储器 层次 )，400-401 
multidimensional indexing 〈 多 维 索引 )，404-405 
online analytical processing〈 在 线 分 析 处 理 )，417-419 
operational (业务 ~》，417 
purpose of (~ 的 目的 )，400 
query execution and optimization (查询 的 执行 和 优化 》， 
415-417 
relational (关系 ~)，405-409 
strategic (策略 )，417 
string FFR), 420-421 
Structured Query Language《〈 结 构 化 查询 语言 )，409， 
413-415 
Deciles〈 二 分 位 点 )，56 
Decision boundaries 〈 决 策 边 界 )，330-331 
Decision region 〈 决 策 区 域 )，330 
Decision surfaces 〈 决 策 曲面 )，330-331 
Decision trees (决策 树 ?，422 
Degrees of freedom ( HHA), 376-377, 489-490 
Dendrograms 〈 树 状 图 )，313 
Density estimation (密度 估计 )，12，184 


Density function (密度 函数 )，97-98,， 355, 485. 参见 Probability 


distribution and Density function models 

Density mixtures (密度 混合 )，279-281 

Density models, parametric〈 密 度 模 型 ， 参 数 的 ~)，275-279。 
参见 Probability distribution and density function models 
Denumerable domain 〈 不 可 数 的 定义 域 )，485 

Dependency modeling 〈 依 赖 模 型 )，12 

Dependent variables 《依赖 变量 )，35 

Depth-first search 深度 优先 搜索 )，245 

Derived variables 〈 导 出 变量 )，198 

Descriptive models 〈 描 述 模型 > 


background information (WRAAE), 271-272 
cluster analysis ( R24} #1), 293-296 
functions of (~ 的 函数 )，12-13 
goal of (~ 的 目标 )，12 
hierarchical clustering (RŽ), 308-315 
agglomerative methods (AUR A¥K), 308, 311-314 
background information 《背景 信息 )，308-311 
divisive methods 分裂 方 法 )，308，314-315 
nonprobabilistic〈 非 概率 的 )，219 
partition-based clustering algorithms 〈 基 于 划分 的 聚 类 
算法 )，296-308 
background information 〈 背 景 信 息 )，296-297 
basic algorithms for (基本 算法 )，302-308 
for nonprobabilistic predictive models 《用 于 非 概 率 预测 模 
型 的 ~)，219 
score functions for 《用 于 ~ 的 评分 函数 )，296-302 
probabilistic model-based clustering〈 基 于 模型 的 概率 聚 类 )， 
315-323 
advantages (优点 )，319 
background information《〈 背 景 信息 )，315-316 
disadvantages 〈 缺 点 )，319-321 
examples (例子 )，316-319 
techniques (技术 )，321-323 
probability distribution and density function models and “概率 
分 布 和 密度 函数 模型 )，272-292 
background information (背景 信息 )，272-274 
Expectation Maximization algorithm for《〈 用 于 ~ 的 期 望 最 大 
化 算法 )，281-284 
joint distributions for categorical data〈 用 于 范畴 型 数据 的 
联合 分 布 )，287-292 
mixture distributions and densities (混合 分 布 和 密度 )，279-281 
nonparametric density estimation 〈 非 参数 密度 估计 )，284- 
287 
parametric density models (参数 密度 模型 )，275-279 
score functions for《 用 于 ~ 的 评分 函数 )，274-275 
score functions for〈 用 于 ~ 的 评分 函数 )，212，217-219 
Deviance of model 《模型 的 偏离 度 )，389-390 
Diagnostic methods (诊断 方法 )，10，338，381-384 
Dice coefficient (Dice 系数 )，37 


Difference operation (#257), 410 





Discovery task, patem 〈 发 现任 务 ， 模 式 )，205 
Discriminant functions 〈 判 别 式 函 数 )，331 
Discriminative approach 〈 判别 方法 )，335-339 
Discriminative classification 《判别 分 类 )，330-331 
Disk access, special-purpose algorithms for (磁盘 访 问 ， 考 虚 ~ 
的 有 针对 性 算法 )，424 
Dispersion measurement〈 离 差 测量 )，56 
Dispersion parameter〈 离 差 参 数 )，388 
Dissection 〈 细 分 )，293 
Distance (距离 ) 
cosine (RIZ), 459 
distance (PEH), 32-33, 85 
editdistance〈 编 辑 -距离 )，312 
Euclidean ( 欧 氏 ~)，32-33，85，4S9，480 
Mahalanobis 〈 马 氏 ~)，276-277 
measurements (测量 )，31-38 
minimum 〈 最 小 化 )，298 
pairwise〈 成 对 的 ~)，312 
between queries and documents〈 查询 和 文档 间 的 ~)，462 
similarity and 《相似 性 和 ~)，15，451 
weighted Euciidean 《加 权 的 欧 氏 ~)，33 
Distortion of samples 〈 样 本 失真 )，49-50 
Distribution-free tests 〈 独立 于 分 布 的 检验 )，129 
Distributions 〈 分 布 )， 参 见 Probability distribution and density 
function models 
Bemouli 〈 伯 努 里 )，487 
Beta (B)，119 
binomial (=), 487 
chi-squared distribution (EJ), 489-490 
conjugate families of (Ft#EHK), 122-123 
exponential family of (880%), 388 
F (F), 490 
finite mixture 《有限 混合 )，280 
independently and identically distributed 〈 独 立 同 分 布 )，108 
joint (RA) 
for categorical data 〈 范 畴 型 数据 的 ~)，287-292 
for unordered categorical data〈 无 序 范畴 型 数据 的 ~)， 
187 
left-skewed〈 左 -倾斜 的 )，57 
mixture (HE), 279-281 
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multimodal (多 峰 型 )，56，60 
multinominal (多 项 式 )，487-488 
multivariate normal (多 元 正 态 )，490 
Normal ( 正 态 )，60，113，115-116，118，121-122， 
127，171，276，350，488 
Poisson〈 泊 松 )，280-281，388，488 
posterior〈 后 验 )，117，122-123 
predictive 〈 预测 )，120-121 
pbrior〈 先 验 )，117，122-123 
probability Æ), 485, 487-490 
relative (AAR), 459 
right-skewed 〈 右 -倾斜 的 )，57 
skewness of 《~ 的 倾斜 度 )，56-57 
student’s /- CHER r-), 489 
Divisive methods (J7), 308, 314-315 
Document (X$), 456, 461-465, 469-470 
Dredging (T$), 22-23 
Duplicates (Æ), 411 


E 


EDA (REHA, 11-12 
Edit-distance 〈 编 辑 -距离 )，312 
Edited nearest neighbor methods 《改进 的 最 近邻 方法 )，352 
EFFORT (software program) (EFFORT 《软件 程序 ))，29-30 
EM algorithms (EM 算法 )， 参 见 Expectation Maximization 
algorithms 
Entities 《实体 )，4 
Episodes 《片段 )，207-208，436-438 
Epsem sample (Epsem 样本 )，134 
Errors 《误差 ) 
absolute (绝对 )，216 
actual error rate ( 实际 误差 率 )，359 
apparent error rate〈 表 观 误 差 率 )，359 
Bayes error rate ( 贝 叶 斯 误差 率 )，334 
conditional error rate (条 件 误差 率 )，359 
defined 《定义 )，373 
estimation (估计 )，216 
family error rate( 族 误差 率 )，131 
mean squared 〈 均 方 ~)，107，223-224 
misclassification of objects and〈 误 分 类 对 象 )，359-361 
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quadratic error function ( 二 次 误差 函数 )，340 
resubstitution error rate (重新 代入 误差 率 )，359 
risk of (~ 的 风险 )，45 
squared 《平方 )，216 
true error rate (真实 的 误差 率 )，359 
Estimation 《估计 )》 
Bayesian〔 贝 叶 斯 )，93，96，106，116-124，220，283 
biased (有 偏 的 )，106 
cross-validation《 交 叉 验证 )，148-149 
defined (X), 93 
density CEFE), 12, 184 
errors RÆ), 216 
maximum likelihood (AKR), 96, 106, 108-116 
nonparametric density 〈 非 参数 密度 )，284-287 
over《 高 估 )，216 
parameter〈 参 数 )，240 
probability distribution and density (概率 分 布 和 密度 )， 
274-275 
quasilikelihood (EALAR), 390 
query selectivity 〈 查 询 选择 能 力 )，273 
regression and 《回归 和 )，13 
stochastic〈 随 机 的 )，123，265 
unbiased 《无 偏 的 )，106，227 
uncertainty and 《不 确定 性 和 )，105-124 
background information〈 背景 信息 )，105-106 
Bayesian〈 贝 叶 斯 )，93，116-124 
maximum likelihood and (最 大 似 然 和 )，93，108-116 
properties of estimators and,desirable (估计 基 属性 ， 理 想 
AJ~), 106-108 
stochastic (BPLE), 123-265 
under〔 低 估 )，216 
Estimators 〈 估 计量 )，106-109 
Euclidean distance 〈 欧 氏 距 离 )，32-33，85，459，480 
Euclidean metric〔 欧 氏 标 距 )，36 
Euclidean space (KKZ), 298 
Evaluation 〈 评 估 ) 
of classifiers 〈 分 类 器 的 )，359-362 
of models and patterns 〈 模 型 和 模式 的 )，229-231 
of retrieval systems 〈 检 索 系 统 的 )，452-456 
Event-sequence〈 事 件 序列 )，43 
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“Exclusive-or” structure (“ 异 -或 ”结构 )，71 
Expectation Maximization (EM) algorithms (期 望 最 大 化 算法 ) 
function of (~ 的 功能 )，21 
for mixture models〈 用 于 混合 模型 的 )，187，281-284 
optimization and (优化 和 )，260-265 
red blood cell example (血红 细胞 例子 )，317-318 
Expected value ( 期望值 );，486 
Experimental data 〈 试 验 数据 )，1 
Experimental design〈 试 验 设 计 )，132 
Explainable variation 〈 可 解释 的 变化 )，179 
Explanatory variable 〈 解 释 变 量 )，168 
Exploratory data analysis (EDA) 《探索 性 数据 分 析 )，11-12 
Exploring data (探索 数 据 )， 参 见 Graphical data exploration 
methods 
Exponential family of distributions〔 指数 族 分 布 )，388 
Expressive power of model structure( 模 型 结构 的 表达 力 )，183 


F 


F distributions (F 4} 76), 490 

Factor analysis (因素 分 析 )，83 

Factor loadings 《因素 加 载 )，83 

Factored form (ARIER), 292 

Factorization 〈 因 式 分 解 )，187-193，290 

Factors 〈 因 素 )，195 

Family error rate 〈 族 误差 率 )，131 

Family of model structures 〈 模 型 结构 族 )，238 

Fate〈 天 数 )，93-97。 参 见 Uncertainty 

Feasible region 〈 可 行 区 域 )，259 

Feature extraction approach 《特征 提 取 方 法 )，197-198 
Feature selection for classification in high dimensions 〈 在 高 维 空 
间 中 选择 用 于 分 类 的 特征 )，362-363 

Features 〈 特 征 )，4 

Feed-forward neural networks 前 馈 神经 网 络 )，357，391 
Fields (34), 4, 202 

File, inverted (文件 ， 倒 排 )，461 

Filtering, collaborative 〈 过 滤 ， 协 同 )，471-472 

Finite mixture distributions〈《 有 限 混合 分 布 )，280 

Finite state machine (FSM) (有 限 状 态 机 )，202 

First normal form 《第 一 范式 ) ，408 

First-order autoregressive model 〈 一 阶 自 回归 模型 )，199-201 


First-order Bayes assumption 一 阶 贝 叶 斯 假定 )，354 
First-order Markov property, 101 

Fisher information (一 阶 马尔 可 夫 属 性 )，122 

Fisher, R.A.《 费 软 尔 ，R. A.)，341 

Fisher’s linear discriminant analysis method (RKR TERDI 
SHAK), 331, 353, 356, 362 

Fishing (#49), 22-23 

Fitted model 〈 拟 合 后 的 模型 )，10-11 

Flattened data 〈 平 面 数据 )，7，20，43，358 
Forecasting 〈 预 报 )，133 

Form of data〈 数 据 的 形式 )，41-44 

Forward selection algorithms 〈 前 向 选择 )，243，379 
Freedom, degrees of (自由 度 )，376-377，489-490 
Frequency of episode (片段 的 频率 )，436-437 

Frequent itemsets (频繁 项 集 )，429-433 

Frequent sets 《频繁 集 )，204，431，433-435 
Frequentist view of probability 概率 的 频率 论 观 点 )，95 
From clause (From 子 句 )，413 

FSM (有 限 状 态 机 )，202 

Function approximation problems (函数 近似 问题 );，169 
Functional dependency《 函 数 依 赖 性 )，206 

Furthest neighbor methods (最 远 邻 方法 )，313 


G 


Gaussian noise 〈 高 斯 噪声 )，199 

Generalizations 〈 泛 化 〈 推 广 ))，295，377-378，435-436，476 
Generalized additive models〈 推 广 的 相 加 模型 )，393-395 
Generalized linear models 〈 推 广 的 线性 模型 173-353, 
384-390 

Generative models 〈 产 生 式 模型 )，272 

Generic score functions 〈 通 用 评分 函数 )，16，219 
Genetic search (遗传 搜索 )，266-267 

Geographic data〈 地 理 数 据 )，44 

GIGO (垃圾 进 ， 垃 圾 出 ) 44-45 

Gini coefficient of performance 〈 性 能 的 Gini 系数 )，361 
Global models 〈 全 局 模型 )，442-443，478-480 

Global patterm〈 局 部 模式 )，9 

Goodness-of-fit tests 〈 拟 合 度 检验 )，126，142，372，377 
Google system (Google 系统 )，15 

Grades (4}%%), 31 
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Gradient descent method (梯度 下 降 方 法 )，253 
Gradient-based methods〈 基于 梯度 的 方法 )，250-251 
Grammars 〈 语 法 )，202 
Graphical data exploration method 《图形 化 的 数据 探索 方法 ) 
background information (HAFA), 53-55 
hypothesis testing and〈 假 设 检验 和 )，53 
multidimensional scaling 〈 多 维 缩放 )，84-90 
principal components analysis 〈 主 分 量 分 析 )，74-84 
summarizing data〈 总 结 数据 )，54-S7 
visual techniques 《可 视 化 技术 》 
for more than two variables (用 于 应 个 以 上 变量 的 )， 
70-74 
for relationships between two variables 《用 于 两 个 变量 间 关 
系 的 )，62-70 
for single variables (用 于 单个 变量 的 )，57-62 
Graphical models (图 形 模 型 )，189-190 
Greedy heuristic search methods 〈 贪 楚 启 发 搜索 方法 )，241 


H 


Hash indices 〈 哈 希 索 引 ?，403-404 
Hazard (意外 )，93-97。 参 见 Uncertainty 
Heterogeneous data set 〈 异 质数 据 集 )，279 
Heteroscedasticity 〈 蜡 方差 性 )，381 
Heuristic search methods 〈 启 发 搜索 方法 )，241，244-246， 
439-440 
Hidden Markov models (HMMs) 〈 隐 马尔 可 夫 模 型 )，201-202， 
291 
Hidden variables (隐藏 变量 )，187，190-191，195 
Hierarchical clustering (ARX) 
agglomerative methods (ERJA), 308, 311-314 
background information (HRAS), 308-311 
divisive methods (4}28777%), 308, 314-315 
Hierarchical structure (ERAH), 44 
High-dimensional data (SHEM), 194-196, 362-363 
“ Hili-climbing” algorithm (“MEU ” W), 244 
Histograms (HAM), 57-59, 61, 284 
HMMs ( 隐 马 尔 可 夫 模型 )，201-202，291 
Homoscedasticity 〈 同 方差 性 )，381 
Horseshoe effect (马蹄 铁 效应 ) ，88 
Hypertetrahedron 〈 超 四 面体 )，258 
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Hypothesis testing 〈 假 设 检 验 ) 
graphical data exploration methods and〈 图 形 化 的 数据 探 
索 方 法 和 ~)，53 
random variables and 随机 变量 和 ~)，99 
uncertainty and 〈 不 确定 性 和 ~)，124-132 
background information 〈 背 景 信息 )，124 
classical (经 典 的 ~)，124-130 
in context〈 数 据 挖 握 中 的 ~)，130-132 


IBM (美国 国际 商用 机 器 公司 )，474 
Icon plot (图标 图 )，74 
Icons (it), 74 
Idealization 《理想 化 )，95 
IDF (文档 频率 倒数 )，463 
iid (独立 同 分 布 )，108 
Image (BR) 
coding (443), 166-167 
form of data and 〈 数 据 的 形式 )，44 
invariants〈 恒 定性 )，475-476 
local part of (~ 的 局 部 )，166 
queries (#7), 473-474 
representation (278), 473 
retrieval (RYH), 472-476 
understanding 〈 理 解 )，473 
whole (#7), 166 
Improper priors 〈 不 合适 的 先 验 )，122 
Independence in high dimensions (高 维 中 的 独立 性 )，187-193 
Independent variables (独立 变量 )，99，188-189 
Independently and identically distribution (iid) (独立 同 分 布 )，108 
Indicator matrix“ 指示 矩阵 )，429-430 
Individual contribution (个 体 分 布 ); 170 
Individual preferences, modeling 《个 人 偏好 ， 对 ~ 建 模 》 
470-472 
Individual X variables 〈 单 个 的 X 变量 )，194-195 
Individuals (44), 4 
Inference (HEFE), 377-378 
Information retrieval (IR) 〈 信 息 检索 )。 参 见 Text retrieval 
Input variable (输入 变量 )，329 
Inspection, model (审查 ， 模 型 )，381-384 





Interactive techniques (ZER), 11, 456 
Interestingness, criteria for ( 有趣 度 ，~ 标 准 )，440-441 
Interquartile range 〈 四 分 位 值 域 ) ，56 

Intersection operation ! 交 运算 )，410 

Interval scale〈 区 间 标 度 )，28-29 
Inverse-document-frequency (IDF)〈 文 档 频 率 倒数 )，463 
Inverted file( 倒 排 文 件 )，461 

IR (信息 检索 )。 和 参见 Text retrieval 

ISODATA algorithm (ISODATA 算法 )，307 

Itemsets, frequent CHA, M~), 429-433 

Iteratively weighted least square method CARIERA) 
258-389 


J 


Jaccard coefficient (Jaccard 系数 )，37 
Jackknife methods (Jackknife 7774), 360-361 
Jeffrey's prior (Jeffrey 先 验 )，122 
Join operations 〈 联 接 运 算 )，412 
Joint density function (联合 密度 函数 ) ，97-98 
Joint distributions (联合 分 布 ) 
for categorical data (用 于 范畴 型 数据 的 )，287-292 
for unordered categorical data《 用 于 无 序 范畴 型 数据 的 )，187 


K 


K - means algorithms (KK- 均 值 算 法 )，298，305 

k - nearest neighbor method (Kk- 最 近邻 算法 )，348-349 
Kalman filters (Kalman 滤波 器 )，201-202 

KDD (数据 库 知识 发 现 )，3 

Kernel density method〔 核 密度 估计 )，284 

Kernel estimates 〈 核 估计 )，59-62，176 

Kernel function CARX, 285 

Kernel methods, 176-178 

Kemel models 〈 核 方法 )，287 

Kemel plots 〈 核 曲线 )，61 

Keyword spotting 〈 关 键 字 命中 )，479 

Knowledge discovery in databases (KDD) 〈 数 据 库 知识 发 现 ) ，3 
Kolmogorov-Smirnov test statistic (Kolmogorov-Smimov 检验 
StH), 129-130 

kth mixing proportion (第 k 个 混合 比例 )，281 

kth-order Markov model (k 阶 马尔 可 夫 模 型 )，200 


dt 


Kuhn-Tucker conditions (Kuhn-Tucker 4/#), 260 


L 


Lagrange multipliers (HLBHIP), 259-260 
Laplace approximation 〈 拉 普 拉 斯 近似 )，323 
Latent semantic indexing (LSI) 〈 隐 含 语义 索引 )，465-469 
Latent variables〈 隐 含 变量 )，187，190-191，195 
Least squares fitting 〈 最 小 二 乘 拟 合 ) 
computational issues in 〈~ 中 的 计算 问题 )，370-372 
defined〈 定 义 )，370 
diagnostic methods and (诊断 方法 )，381-384 
generalization and (推广 )，377-378 
inference and C#M), 377-378 
interpreting (f##F), 375-377 
model building and (#248), 378-381 
model inspection and (模型 审查 和 )，381-384 
Least squares method (最 小 二 乘法 )，114,，211，370 
Leaving-one-out method ( 留 一 法 )，360 
Lee, M. (Lee, M), 425 
Left-skewed distributions 〈 左 倾斜 分 布 )，57 
Length variables (长 度 变量 )，32 
Letters (字母 )，206。 参 见 string 
Likelihood function 〈 似 然 函 数 )，105，108-109，274-275 
Likelihood ratio〈 似 然 率 )，125-126 
Linear algebra methods 〈 线 性 代数 方法 )，249-250 
Linear correlation〔 线 性 相关 )，35 
Linear covariance 线性 协 方差 )，35 
Linear dependencies 〈 线 性 依赖 )，3S 
Linear discriminants (线性 判别 式 )，341-343 
Linear function 〈 线 性 函数 )，9 
Linear models 〈 线 性 模型 ) 
background information 〈 背 景 信息 )，368-370 
diagnostic methods and (诊断 方法 )，381-384 
generalization and (7244), 377-378 
generalized 〈 推 广 的 ~)，384-390 
global (全 局 )，478 
inference and 〈 推 理 )，377-378 
inspection (审查 )，381-384 
model building and ( 建 模 )，378-381 
probabilistic interpretation of (~ 的 概率 解释 )，372-375 
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Linear predictor〈 线 性 预报 量 )，388 

Linear programming 〈 线 性 规划 )，259 

Linear regression models 〈 线 性 回归 模型 )， 参 见 Linear models 
Linear structure, regression models with 〈 线 性 结构 ， 具 有 -~ 的 回 
归 模 型 )，169-173 

Local exploration〈 局 部 探索 )，243 

Local extremum , finding (局 部 极 值 ， 寺 找 )，251 

Local improvement (局 部 改善 );，241 

Local part of image (图 像 的 局 部 )，166 

Local piecewise model structures for regression (用 于 回归 的 局 
部 分 段 模型 结构 )，174-175 

Locally linear (局 部 线性 )，174 

Locally weighted regression model 〈 局 部 加 权 回 归 模型 )， 
175-176 

Location measurements 〈 位 置 测 量 )，55 

Location parameters 〈 位 置 参数 )，184 

Loess regression model (Loess 回归 方法 )，175-176 
Log-likelihood 《对 数 似 然 )，122，274-275 

Log-linear models 《对 数 线性 模型 )，292 

Logistic discriminant analysis logistic 判别 式 分 析 )，352-353 
Logistic link function (logistic 连接 函数 )，385 

Logistic regression (logistic 回归 )》，384-385 

Logit link function (对 数 连接 函数 )，385 

Logit transformation〔 对 数 变 换 )，40 

“Lower resolution” data samples 11 

LSI (“ 较 低 分 辩 率 ”数据 样本 )，465-469 

Luck GZ), 93-97. 2 Uncertainty 


M 


Mahalanobis distance (HERR), 276-277 

Manhattan metric ( 曼哈顿 标 距 )，36 

Manipulation of variables (操纵 变量 )，168 

MAP method (最 大 化 后 验 法 )，117，226，283，291 
Marginal density (UE), 98 

Marginal likelihoods 〈 边 缘 似 然 )，130，226 

Market-basket data ( 市场- 购物 篮 数据 )，158，429-430 
Markov chain model (马尔 可 夫 链 模型 )，189-190，202，290 
Markov Chain Monte Carlo (MCMC) methods (BRIKS 
特 卡 罗 方 法 )，123，268 

Markov linear-switching model (马尔 可 夫 线性 切换 模型 ) 
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479-480 
Markov random fields 〈 马 尔 可 夫 随 机 场 )，202 
Massive data sets (海量 数据 集 )，421-426 
Mathematical programming (数学 规划 )，259 
Maximal predictive classification 〈 最 可 能 预测 分 类 )，301 
Maximum likelihood estimation 〈 最 大 似 然 估 计 )，93，106， 
108-116 
Maximum likelihood estimator (MLE) (最 大 似 然 估 计量 )，109， 
113 
Maximum a posteriori (MAP) method 〈 最 大 化 后 验 法 )，117， 
226，283，291 
Maximum variability in data 〈 数 据 中 的 最 大 变化 性 )，77 
MCMC methods (MCMC 方法 )，123，268 l 
MDL method (MDL 7i##), 226 
Mean squared error (MSE) 〈 均 方 误差 ) , 107, 223-224 
Measurements (HÆ). $5, Data 
accurate (ARBE), 45-46 
amounts and 《数量 和 ~)，31 
background information (背景 信息 )，25-26 
balances and (余额 )，31 
bias of (~ 的 偏差 )，45 
counted fractions and〈 计 份额 )，31 
counts versus 〈 计 数 相对 于 ~)，31 
dispersion (HÆ), 56 
distance (EÑ), 31-38 
grades and (4}2%), 31 
individual data quality for 〈 数 据 个 体 的 质量 )，44-47 
location 〈 位 置 )，55 
metrical versus categorical 〈 标 距 型 测量 和 范畴 型 测量 )，31 
pairs of (~ 对 )，327 
precise 精确 的 )，45 
qualitative versus quantitative 定性 的 和 定量 的 )，31 
ranks and ( 排 位 和 ~)，31 
reliability of (~ 可 靠 性 )，46 
representational 《表示 性 的 )，29-31 
summary information 《归纳 )，52 
types of 《~ 的 类 型 )，26-31 
validity of (~ 的 有 效 性 )，46-47 
variability〈 变 化 性 )，56 
Median〈 中 值 )，55 


Memory hierarchy (存储 器 层次 )，400-401 
Minimum description length (MDL) method (最 短 描述 长 度 方 
法 )，226 
Minimum distance 最短 距离 )，298 
Minkowski metric( 闵可夫 斯 基 标 距 )，36 
Missing data, optimization with 《残缺 数据 ， 存 在 ~ 时 的 优化 )， 
260-265 
Mixture distributions and densities 《混合 分 布 和 密度 )，279-281 
Mixture models GARE 
autoregressive models 〈 自 回归 模型 )，202 
parametric〈 参 数 ~)，185-187 
probabilistic model-based clustering using 《利用 ~ 的 基于 模型 
概率 聚 类 )，315-323 
advantages (R) 319 
background information (# Rf M), 315-316 
disadvantages (fA), 319-321 
examples (BIF), 316-319 
techniques (HER), 321-323 
and radial basis function approaches (~AR BRR), 
357 
MLE 〈 最 大 似 然 估计 量 )，109，113 
MLP〈 前 馈 多 层 感知 器 )，153-157，357，391 
Mode (最 频 值 )，56 
Model averaging methods (模型 平均 方法 )，346 
Models (模型 )， 参 见 Complexity of models; Patterns; specific 
types 
background information (HRES), 165-167 
building (#237), 378-381 
classes of structure (各 类 结构 )，235，238 
curse of dimensionality and (维度 效应 )，193-196 
data 〈 数 据 )，405 
data mining and〈 数 据 控 握 和 )，1-2，10-11，175，271 
defined GEM), 165 
deviance of (~ 偏离 度 )，389-390 
evaluation of (~ 的 评估 )，229-231 
expressive power of (~ 的 表达 力 )，183 
fundamentals (基础 )，167-168 
generalized linear 〈 推 广 的 线性 )，173，353，384-390 
generative (FÆR), 272 
global (£), 442-443, 478-480 


goal of (~ 的 目标 )，102 
for individual preferences〈 用 于 对 个 人 爱好 建 模 的 )，470-472 
inspection of (~ 的 审查 )，381-384 
kth order Markov (大 阶 马 尔 可 夫 )，200 
Markov chain《〈 马 尔 可 夫 链 )，189-190，202，290 
parameters of (~ 的 参数 )，167，276 
for prediction (用 于 预测 的 )，168-183 
background information (#244), 168-169 
local piecewise model structures for regression (用 于 回归 
的 局 部 分 段 模型 结构 )，174-175 
nonparametric “ memory-based ” local models( 非 参数 的 “ 基 
于 记忆 ”局 部 模型 )，175-178 
regression models with linear structure〈 具有 线性 结构 的 回 
归 模 型 )，169-173 
selecting, of appropriate complexity (选择 ， 合 适 的 复杂 度 )， 
183 
stochastic components of (~ 的 随机 分 量 )，178-180 
for probability distributions and density (用 于 概率 分 布 和 密度 
的 )，184-193 
background information《 背景 信息 )，184 
concepts, general 概念， 一般)，184-185 
factorization and independence in high dimensions 〈 高 维 中 
的 因 式 分 解 和 独立 性 )，187-193 
joint distributions for unordered categorical data (ACF YR 
型 数据 的 联合 分 布 )，187 
mixtures of (~ 的 混合 )，185-187 
search methods for 〈 搜 索 -的 方法 )，238-241，378-381 
background information 〈 背 景 信息 )，238-241 
branch-and-bound (分 枝 定 界 )，246-247 
heuristic search 〈 启 发 式 搜索 )，244-246 
simple greedy search algorithm 〈 简 单 的 贪 禁 搜索 算法 》， 
243-244 
state-space formulation (状态 空间 搜索 形式 )，241-243 
systematic search 《系统 搜索 )，244-246 
for structured data (用 于 结构 数据 )，197-203 
Momentum-based methods (基于 冲 量 的 方法 )，254 
Monothetic divisive methods〈 单 分 裂 方法 )，315 
Monotonic regression (单调 回归 )，87 
Monte Carlo Markov Chain (MCMC) methods (Monte Carlo 马 
尔 可 夫 方 法 )，123，268 
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Monte Carlo sampling techniques (Monte Carlo 抽样 技术 )， 
123, 226 
Morse codes〈 莫 尔 斯 代码 )，85 
MSE (MSE), 107, 223-224 
Multicollinearity (多 重 共 线 性 ) . 371 
Multidimensional indexing (多 维 索引 )，404-405 
Multidimensional scaling 〈 多 维 缩放 )，84-90 
Multidimensional scaling plot (多维 缩放 曲线 )，88 
Multilayer perceptrons (MLPs) (多 层 感 知 器 ), 153-157, 357, 391 
Multimodal distributions (多 峰 型 分 布 ) 56, 60 
Multinomial distributions 〈 多 项 分 布 )，487-488 
Multiple regression (4 EH), 368-369 
Moultirelational data 〈 多 重 关 系数 据 )，42-43 
Multivariate function (多 元 函数 )，113-114 
Multivariate gradient descent method (多 元 梯度 下 降 方 法 )，256 
Multivariate normal distributions 〈 多 元 正 态 分 布 )，490 
Multivariate parameter optimization (多 元 参数 优化 )，255-259 
Multivariate random variables ( 多 元 随机 变量 )，97-102 





N 


Naive Bayes model (朴素 贝 叶 斯 模型 )，353-356 
NASA Earth Observing System (NASA 地 球 观测 系统 )，19 
Natural language processing (NLP) (自然 语言 理解 )，457 
Natural parameter ( 自然 参数 )，388 
Nearest neighbor methods (最 近邻 方法 ) 
agglomerative methods and〈 凝 聚 方法 和 )，312-313 
condensed 《压缩 的 )，352 
edited 《改进 的 )，352 
nonparametric“ memory-based ”local models and (“基于 记 
忆 ” 的 非 参数 局 部 模型 )，176，178 
pairwise distances of the members of each cluster and (XH 
成 员 的 两 两 距离 )，312-313 
parametric models and (参数 模型 和 )，351 
predictive models for classification and (用 于 分 类 的 预测 模 
型 和 )，347-352 
reduced 简化 的 )，352 
Nelder and Mead variant (Nelder 和 Mead 变 体 )，259 
Nesting (Æ), 172 
Neural networks 〈 神 经 网 络 )，173 
Newton-Raphson (NR) method (Newton-Raphson (NR), Ai 
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IA), 252-253, 255, 389 

Newton’s method (Newton 方法 )，256-257 

NIST (NIST), 456 

NLP (NLP), 457 

Nominal scales〈 标 称 标 度 )，28，31 

Non-metric multidimensional scaling ( 非 标 距 多 维 缩放 )，87 
Nonlinear function〈 非 线性 函数 )，10，154 

Nonlinear global models 〈 非 线性 全 局 模型 )，478-479 
Nonparametric density estimation 〈 非 参数 密度 估计 )， 
284-287 

Nonparametric “ memory-based ” local models “基于 记忆 ”的 
非 参数 局 部 模型 )，175-178 

Nonparametric models 〈 非 参数 模型 )，185 

Nonparametric test〈 非 参数 检验 )，130 

Nonprobabilistic descriptive models ( 非 概率 描述 模型 )，219 
Nonrepresentational procedures 〈 非 表示 性 过 程 )，30 
Nonscalable versions of data mining algorithms 〈 数 据 挖掘 算 法 
的 非 伸缩 版 本 )，424 

Nonsystematic variation 〈 非 系统 性 变化 )，179-180 

Normal density 正 态 密度 )，197，355 

Normal distribution 〈 正 态 分 布 )，60，113，115-116，118， 
121-122, 127, 171, 276, 350, 488 

Normal posterior, 122-123 

Normal prior CEJ), 122-123 

NR method (NR 777), 252-253, 255, 389 

Null hypothesis (FRH), 124-126 

Numerical scales (数字 标 度 )，31 


O 


Objects (HR), 4 
‘Observational data 〈 观 察 到 的 数据 )，1 
Odds ratio (W), 352-353 
OLAP (OLAP)，417-419 
OLTP (OLTP), 417-419 
One-tailed test〈 单 边 检验 )，125 
Online algorithms 〈 在 线 算 法 )，265-266 
Online analytical processing (OLAP) 在 线 分 析 处 理 )，417-419 
Online approximation 在线 近似 )，265 
Online transaction processing (OLTP) (在 线 事务 处 理 )，417-419 
Operational databases 〈 业 务 数据 库 )，417 
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Operational procedures (操作 性 过 程 )，30 
Opportunity samples 〈 机 会 样本 )，21，48 
Optimization (优化) 
background information (背景 信息 )，235-238 
combinatorial (组 合 )，236-239 
as component of data mining algorithms 〈 作 为 数据 挖掘 算法 
的 组 件 )，16-17，142-143 
constrained 〈 约 束 )，259-260 
Expectation Maximization algorithm and〈 期 望 最 大 化 算法 
和 )，260-265 
maximum likelihood estimation and (最 大 似 然 估 计 和 )，114 
with missing data (存在 残缺 数据 时 的 )，260-265 
online algorithm and (在 线 算法 和 )，265-266 
parameter optimization methods (参数 优化 方法 )，247-260 
background information 《背景 信息 )，247-249 
closed form《 闭合 形式 )，249-250 
constrained 《约束 )，259-260 
gradient-based (基于 梯度 的 )，250-251 
linear algebra 线 性 代数 )，249-250 
multivariate( 多 元 )，255-259 
univariate 《一 元 )，251-255 
query 《查询 )，415-417 
single-scan algorithms and ( 单 扫描 算法 和 )，265-266 
stochastic (BAHL), 266-268 
Ordinal scales “顺序 标 度 )，28，31 
Organization of data〈 数 据 的 组 织 )， 参 见 Databases 
Orthogonality of data〈 数 据 的 正 交 性 )，240 
“Outof-sample ” data (“样本 外 ”数据 )，227，328，372 
Overestimation 《高 估 )，216 
Overfitting (过度 拟 合 })，19，183，223 


P 


p-dimensional space (p-#E27f#]), 10, 12, 165, 180, 277, 
479 

p-dimensional vector (p-m), 9, 36, 174, 329-330, 399 
PageRank (PageRank), 15 

Pairs of measurements 〈 测 量 对 )，327 

Pairwise distance 〈 两 两 距离 )，312 

Parallel coordinates plots 〈 平 行 坐标 图 )，74，76 

Parameter optimization methods 〈 参 数 优化 方法 ) 


background information 〈 背 景 信息 )，247-249 
closed form 〈 闭 合 形式 )，249-250 
constrained (25), 259-260 

gradient-based 基于 梯度 的 )，250-251 

linear algebra (线性 代数 )，249-250 
multivariate (多 元 )，255-259 


univariate (一 元 )，251-255 


Parameters (参数 ) 


algorithm ($74), 267 

canonical (正规 )，388 

defined GEX), 47 

dispersion (#332), 388 

estimation (ftiit), 240 

linear function of (~ 的 线性 函数 )，9 

location〈 位 置 )，184 

of models 〈 模 型 的 )，167，276 

natural (自然 )，388 

regression model (回归 模型 )，173 

scale〈 范 围 )，184，388 

Parametric models〈 参 数 模型 ) 

density CEE), 275-279 

mixtures of (~ 的 混合 )，185-187 

nearest neighbor methods and 最 近邻 方法 和 )，351 
overview 《概览 )，184 

Parents of variables〈 变量 的 双亲 )，189 
Partition-based clustering algorithms 〈 基 于 划分 的 聚 类 算法 ) 
background information〈 背 景 信息 )，296-297 
basic algorithms for (基本 算法 )，302-308 

for nonprobabilistic descriptive models〈 用 于 非 概率 描述 模型 
的 )，219 

score functions for〈-~ 使 用 的 评分 函数 )，296-302 
Pattern search 〈 模 式 搜索 )，259 

Patterns (模式 )。 参 见 Models 

background information (背景 信息 )，165-167 
class of (~ 类 )，204 

co-occurrence 同 现 )，158 

coverage of (~ 的 覆盖 面 )，214 

in data matrices (数据 和 矩阵 中 的 )，203-206 

data mining and (数据 挖 所 和 )，1-2，10-11,，271 
defined GEX), 165 
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detection of (~ 的 探测 )，102 
discovering (发 现 )，13-14，438-441 
discovery task (发 现任 务 )，205 
evaluation of (~ 的 评估 )，229-231 
finding 〈 寻 找 )，427-448 
association rules 〈 关 联 规则 )，433-435 
background information (H RRA), 427-428 
episodes from sequences (从 序列 中 ~ 片段 )，436-438 
from local patterns to global models 〈 从 局 部 模式 到 全 局 模 
型 )，442-443 
generalizations (推广 )，435-436 
itemsets, frequent (项 集 ， 频 繁 的 )，429-433 
predictive rule induction and 〈 预测 规则 归纳 )，443-447 
rule representations 〈 规 则 表示 )，428-429 
selective discovery (选择 发 现 的 )，438-441 
global (全 局 )，9 
local, to global models 〈 局 部 ， 到 全 局 模型 )，442-443 
primitive (Jù), 204 
Q (Q), 450, 454 
scoring 〈 评 分 )，212-215 
search methods for 〈 搜 索 ~ 的 方法 )，238-241，378-381 
background information (背景 信息 )，238-241 
branch-and-bound〔 分 枝 定 界 )，246-247 
heuristic search (RAIL), .241，244-246 
simple greedy search algorithm ( (4 R442 # HE), 
243-244 
state-space formulation〔 状态 空间 形式 )，241-243 
systematic search ( 系统 搜索 )，244-246 
for strings 〈 针 对 字符 串 的 )，206-208 
structure of (~ 结构 )，158 
structures (4444), 203-208 
in data matrices〔 数据 矩阵 中 的 ，，203-206 
for strings〔 针 对 字符 串 的 )，206-208 
text retrieval (文本 检索 )，14 
PCA ( 主 分 量 分 析 )。 和 参见 Principal components analysis 
Penalized likelihood (4E TARAR), 321-322 
Percentiles〈 百 分 位 点 )，56 
Perceptrons (#5028), 153-157, 339-341, 357, 391 
Permutation tests 《置换 检验 })，129 
Piecewise model structures for regression (用 于 回归 的 分 段 模型 
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结构 )，174-175，182 
Point estimates 《点 估计 );，115，119 
Poisson distributions (HA4 fi), 280-281, 388. 488 
Poisson regression 〈 泊 松 回 归 )，388 
Polysemy 一 词 多 义 )，457 
Polythetic divisive methods (多 分 裂 )，315 
Population drift( 总体 漂移 )，49 
Position, sequential (E, FRY), 477 
Posterior distributions (后 验 分 布 )，117 
Precise functional form (精确 的 函数 形式 )，176 
Precise measurement 〈 精确 测量 )，45 
Precision 《精度 / 查 准 率 )，121，453-456 
Predicted intervals 《预测 区 间 )，374-375 
Predictive distributions (预测 分 布 )，120-121 
Predictive models 〈 预测 模型 ) 
background information 〈 背 景 信 息 )，168-169 
for classification 《用 于 分 类 的 )，327-366 
classification models and 〈 分 类 模型 和 )，329-339 
evaluating and comparing 〈 评 估 和 比较 )，359-362 
feature selection for high dimension 〈 针 对 高 维 的 特征 选 
择 )，362-363 
linear discriminants and logistic discriminant analysis 《线性 判 
PIRIT), 341-343, 352-353 
naive Bayes model (Fh#s WATHHATIE). 353-356 
nearest neighbor methods 〈 最 近邻 方法 )，347-352 
other methods《〈 其 他 方法 )，356-359 
overview 〈 概 览 )，180-182，327-329 
perceptrons and〈 感 知 器 和 )，339-341 
tree models 〈 树 模型 )，343-347 
examples of (~ 的 例子 )，14 
goal of (~ 的 目标 )，13 
local piecewise model structures for regression〈 用 于 回归 的 
局 部 分 段 模型 结构 )，174-175 
nonparametric“ memory-based”local models (“基于 记忆 ” 
的 非 参数 局 部 模型 )，175-178 
for regression 《用 于 回归 的 )，367-398 
artificial neural networks 〈《 人 工 神 经 网 络 )，391-393 
background information 〈 背 景 信 息 )，367-368 
generalized linear models 〈 推 广 的 线性 模型 )，384-390 
least squares fitting)《〈 最 小 二 乘 氢 合 )，368-384 








Linear models 〈 线 性 模型 )，368-384 
other highly parameterized models 〈 其 他 咒 度 参数 化 的 模 
型 )，393-397 
regression models with linear structure (具有 有 线性 结构 的 回归 
模型 )，169-173 
score functions for (~ 使 用 的 评分 消 数 )，212，215-217 
selecting, of appropriate complexity (选择 ， 共 有 合适 复杂 度 
的 )，183 
stochastic components of (~ 的 随机 分 量 )，178-180 
Predictive performance (fiWI PERE), 196 
Predictive rule induction ( 预测 规则 归纳 )，443-447 
Predictor variables〈 预 报 变 量 )，168，367 
PREFERENCE property (PREFERENCE 属性 )，27 
Preferences, modeling individual (偏好 ， 对 个 人 ~ 建 模 ) 
470-472 
PRIM algorithms (PRIM 算法 )，445-446 
Primitive patterns (元 模式 )，204 
Principal components ( 主 分 量 )，195 
Principal components analysis (PCA) ( 主 分 量 分 析 ) 
graphical data exploration methods and (图 形 化 的 数据 探索 
方法 )，74-84 
high-dimensional data and 〈 高 维 数据 )，196 
Principal coordinates method 〈 主 坐标 方法 )，86 
Prior distributions 〈 先 验 分 布 )，117 
Priors〈 先 验 )，122-123 
Probabilistic model-based clustering using mixture models (利用 
混合 模型 的 基于 模型 概率 聚 类 ) 
advantages〈 优 点 )，319 
background information (背景 信息 )，315-316 
disadvantages (ts), 319-321 
examples (例子 )，316-319 
techniques (4R), 321-323 
Probabilistic models for classification〈 用 于 分 类 的 概率 模型 ) 
331-334 
Probabilistic rule〈 概 率 规则 )，213-214，428 
Probability 〈 概 率 )，93-97 
Probability calculus 〈 概 率 计算 )，94-96 
Probability distribution and density function models (概率 分 布 
和 密度 函数 模型 ) 
background information 《背景 信息 )，184 


concepts, general (EZ, —AL), 184-185 
descriptive models and〈 描 述 模型 ) 
background information (背景 信息 )，272-274 
Expectation Maximization algorithm for《〈 用 于 ~ 的 期 望 最 大 
化 算法 )，281-284 
joint distributions for categorical data〈 用 于 范 时 型 数据 的 
联合 分 布 )，287-292 
mixture distributions and densities (混合 分 布 和 密度 )， 
279-281 
nonparametric density estimation 〈 非 参数 密度 估计 )， 
284-287 
parametric density models 〈 参 数 密度 估计 )，275-279 
score functions for〈 用 于 ~ 的 评分 函数 )，274-275 
estimation 《估计 )，274-275 
factorization and independence in high dimensions (高 维 中 的 
因 式 分 解 和 独立 性 )，187-193 
joint distributions for unordered categorical data 〈 针 对 无 序 范 
畴 型 数据 的 联合 分 布 )，187 
mixtures of (~ 的 混合 )，185-187 
Probability distributions 〈 概 率 分 布 )，485，487-490 
Probability mass function 〈 概 率 质量 函数 )，485 
Probability theory (概率 论 )，94-95 
Projection operation〔 投 影 运算 )，411 
Projection pursuit methods (投影 追踪 方法 ), 77, 195-196, 357, 
395-397 
Proximity (邻近 度 )，32 
Pruning (4839), 153, 159 
Pseudo data sets (TIGER), 425-426 


Q 


QBIC《〈 根 据 图 像 内 容 查 询 )，15，474 
Quadratic discriminant function 〈 二 次 判别 函数 )，343 
Quadratic error function 〈 二 次 误差 函数 )，340 
Quadratic function 〈 抛 物 线 函 数 )，249 
Quadratic programming 〔〈 二 次 规划 )，259 
Quality of data〈 数 据 质量 ) 
for collection of data〈 数 据 群 体 的 )，47-51 
for individual measurements 〈 单 个 测量 的 )，44-47 
poor (低劣 的 )， 51 
QUALITY OF LIFE property (QUANLITY OF LIFE 〈 生 活 质 
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HL) 属性 )，29 

Quantitative variables (定量 变量 )，6 
Quartiles (四 分 位 点 )，56 

Quasi-likelihood methods 〈 准 - 似 然 方法 )，180 





Quasi-Newton methods 〈 准 -Newton 77¥4), 257-258 
Quasilikelihood estimation 〈 准 似 然 估计 )，390 
Query (查询 ) 
aggregation in, (RA), 414 
execution (4447), 415-417 
image (F(R), 473-474 
matching (PLAC), 461-465 
optimization (R46), 415-417 
pattern Q (~ 模式 Q), 450, 454 
rectangular range (JEKI), 404 
selectivity estimation (选择 力 估 计 )，273 
Structured Query Language 〈 结 构 化 查询 语言 )，409， 
413-415 
text CXÆ), 456-457 
Query by Image Content (QBIC) (HARA RAW), 15, 474 


R 


Radial basis function networks (42 (8) 4 eh 2924), 393 

RAM (RAM), 17 

Random samples (BHBLEEAS), 20, 54, 123 

Random variables (随机 变量 )，97-102，485-490 

Random variation 〈 随 机 变化 )，179-180 

Random-access memory (RAM) 〔〈 随 机 访问 存储 器 )，17 
Randomization tests 《随机 检验 )，129 

Randomness 随机 性 )，93-97。 参 见 Uncertainty 

Range (IR), 56, 404 

Ranks (474), 31 

Ratio scales 《比例 标 度 )，28 

Recall (#4), 453-456 

Receiver Operating Characteristic (ROC) curve〈 接 受 者 操作 特 
性 曲线 )，361，454 

Reciprocals of variances 《方差 的 倒数 )，121 

Records 《记录 ),，4 

Rectangular range query (矩形 区 域 查 询 )，404 

Reduced nearest neighbor methods 〈 简 化 的 最 近邻 方法 )，3S2 
Reductionist viewpoint on data mining algorithms 《数据 挖 括 算 
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法 的 化 约 主义 观点 ) 
A Prior algorithm (A Prior 算法 )，157-160 





background information 〈 背 景 信息 )，151-153 
multilayer perceptrons for regression and classification and (用 
于 回归 和 分 类 的 多 层 感知 器 )，153-157 
vector-space for text retrieval and (用 于 文本 检索 的 向 量 空间 
方法 )，160-162 
Redundant variables (JL@AEH), 194 
Reference prior (B44), 122 
Regression〈 回 归 ) 
approach 〈 途 径 )，335-339 
defined〈 定 义 )，169，328-329 
estimation and〈 估 计 和 )，13 
line (直线 )，368 
linear, probabilistic interpretation of 〈 线 性 ，~ 的 概率 解释 )， 
372-375 
local piecewise model structures for (用 于 ~ 的 局 部 分 段 模 型 
结构 )，174-175 
locally weighted model (局 部 加 权 模 型 )， 
175-176 
loess model (loess 模型 )，175-176 
logistic (logistic), 384-385 
methods (方法 )，348 
models with linear structure( 具有 线性 结构 的 模型 ?，169-173 
monotonic (单调 )，87 
multilayer perceptrons for (用 于 ~ 的 多 层 感知 器 )，153-157 
multiple (多 重 )，368-369 
plane CPH), 368-369 
Poisson 〈 泊 松 )，388 
predictive models for “用 于 ~ 的 预测 模型 )，367-398 
artificial neural networks 〈( 人 工 神经 网 络 )，391-393 
background information 〈 背 景 信息 )，367-368 
generalized linear models 〈 推 广 的 线性 模型 )，384-390 
least squares fitting (最 小 二 乘 拟 合 )，368-384 
linear models 《线性 模型 )，368-384 
other highly parameterized models 〈 其 他 高 度 参数 化 的 
模型 )，393-397 
Projection pursuit 〈 投 影 追踪 )，195-197，395-397 
rule-based (基于 规则 的 )，446 
simple《 简 单 的 )，368 


sum of squares (平方 和 )，376 
Regular expression E 《正则 表达 式 E)，207 
Regular grammars〈 正 则 语法 )，202 
Regularities (规律 )，134 
Regularized discriminant analysis 《正则 化 判别 式 分 析 〉，343 
Reject option (否决 选项 ) ，350 
Rejection region (拒绝 区 )，125 
Relation schema (关系 模式 )，405 
Relational algebra (关系 代数 )，409 
Relational data model (关系 数据 模型 )，405 
Relational databases 《关系 数据 库 )，405-409 
Relations (KA), 405 
Relative distributions 〈 相 对 分 布 )，459 
Relevance feedback (#12: 18), 462, 470-471 
Reliability of measurements (测量 的 可 靠 性 )，46 
Repeated measures data (重复 测量 数据 )，349-350 
Representational measurements (表示 性 测量 )，29-31 
Resampling techniques ( 二 次 采样 技术 )，322 
Residual sum of squares 〈 残 差 平方 和 )，376 
Residuals 〈 残 差 )，369 
Response variable (响应 变量 )，168，367 
Resubstitution error rate〈 重新 代入 误差 率 )，359 
Retesting, effective (重复 测试 ， 有 效 的 )，46 
Retrieval by content (根据 内 容 检索 ) 
applications of (~ 的 应 用 )，15 
background information (背景 信息 )，449-452 
evaluation of systems ( 系统 评估 )，452-456 
goal of (~ 的 目标 )，14 
image retrieval (图 像 检索 )，472-476 
sequence retrieval (序列 检索 )，476-481 
summary information (归纳 信息 )，481-482 
for text (针对 文本 的 )，456-470 
background information 背景 信息 )，456-457 
classification of document and text 《文档 和 文本 分 类 )， 
469-470 
latent semantic indexing (AHARI, 465-469 
matching queries and documents 《匹配 查询 和 文档 )， 
461-465 
patterns (模式 )，14 
representation of text 《文本 的 表示 )，457-461 





time series 《时 间 序 列 )，476-481 
Right-skewed distributions (右倾 斜 分 布 )，57 
Risk of error 误差 的 风险 )，45 
Robust methods ( HJE), 231-232 
ROC curve (ROC Hk), 361, 454 
Rocchio’s algorithm (Rocchio $74), 470 
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epsem (Epsem), 134 

“lower resolution” data 〈“ 低 分 辨 率 ” 数 据 )，11 
opportunity (机 会 )，21，48 

random〔 随 机 )，20，54，123 

systematic (系统 )，133-134 

uncertainty and (不 确定 性 )，102-105 


Root node〈 根 结 点 )，244-245 Sampling fraction (采样 率 )，133 
Rotations, random 《旋转 ， 随 机 )，71 Sampling methods (采样 方法 )，132-138，338 
Rothamsted Experimental Station (英国 洛桑 实验 站 )， Sampling paradigm 采样 模式 )，128 
11-12 Scalable versions of data mining algorithms 《数据 挖 括 算 法 的 可 
Rows (47), 36 伸缩 版 本 )，423-424 
Rules (M) Scale parameter (范围 参数 )，184，388 
discovering (W), 13-14, 438-441 Scales〈 标 度 )，28-29，31 
finding (寻找 ) Scatterplot matrix, 71-72 
association rules (关联 规则 )，433-435 Scatterplots 〈 散 点 图 )，64-65 
background information〈 背 景 信 息 )，427-428 Schemas (HR), 41-44, 405, 410 
episodes from sequences and (从 序列 中 ~ 片段 )，436-438 Score functions for data mining algorithms (数据 挖 据 算法 的 评 
from local patterns to global models ( 从 局 部 模式 到 全 局 模 分 函数 ) 
型 )，442-443 background information (RE), 211-212 
generalizations (推广 )，435-436 decomposable〔 可 分 解 的 )，240 
itemsets, frequent (项 集 ， 频 繁 的 )，429-433 defined (定义 )，211，235 
predictive rule induction and 《预测 规则 的 归纳 )，443-447 descriptive (描述 结构 )，212，217-219 
rule representations 《规则 表示 )，428-429 with different complexities 《针对 不 同 复杂 度 的 )，220-228 
selective discovery of (选择 发 现 的 ~)，438-441 bias-variance (偏差 -方差 )，221-224 
probabilistic Æ), 213-214, 428 concept in comparing, general〈 比较 模型 的 一 般 概 念 )， 
regression based on 《基于 ~ 的 回归 )，446 220-221 
representations of (~ 的 表示 )，428-429 penalizing (惩罚 )，224-227 
set of (~ 集合 )，443 validation and, external 〈 验 证， 外 部 )，227-228 
structure of 《~ 的 结构 )，158 evaluating《 评 估 )，229-231 
function of (~ 的 函数 )，142 
S generic〈 通 用 的 )，16，219 
Sample correlation coefficient 〈 样 本 相关 系数 )，35 for partition-based clustering algorithms〈 用 于 基于 划分 聚 类 
Sample covariance 〈 样 本 协 方差 )，35 算法 的 )，296-302 
Sample mean 〈 样 本 均值 )，33，35 patterns, scoring《 模 式 ， 评 分 )，212-215 
Sample-based estimate of sample mean〈 对 样本 均值 的 基于 样 predictive (预测 )，212，215-217 
本 估计 )，55 for probability distribution and density function models, 
Samples〔 样 本 )，7。 参 见 Data set estimating (用 于 概率 分 布 和 密度 函数 模型 的 ， 估 计 )》， 
convenience〔 顺 便 )，21，48 274-275 
data mining and 〈 数 据 挖掘 )，93 robust methods 〈 和 鲁 棒 方 法 )，231-232 


distortion of (~ 的 失真 )，49-50 scoring method versus (评分 方法 对 ~ )，389 
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Scoring method (评分 方法 ) 
complexity of a model and〈 模 型 的 复杂 度 和 )，220-228 
bias-variance (偏差 -方差 )，221-224 
concepts in comparing, general 《比较 模型 的 一 般 概念 )， 
220-221 
penalizing (ET), 224-227 
validation and, extemal (验证 和 ， 外 部 的 )，227-228 
score functions versus 〈 评 分 函数 对 ~ )，389 
Scree plots GAA HER) , 79-80 
Search methods (搜索 方法 ) 
background information (背景 信息 )，235-238 
blind CHH), 245-246 
branch-and-bound 《分 枝 定 界 )，246-247 
breadth-first (广度 优先 )，245 
as component of data mining algorithms 《作为 数据 挖 扬 算 法 的 
一 个 组 件 )，16-17，142-143 
depth-first ORERE), 245 
genetic CMH HJ), 266-267 
greedy heuristic (ABARA), 241 
heuristic (HEIR), 241, 244-246, 439-440 
for models and patterns (搜索 模型 和 模式 )，238-241，378-381 
simple greedy search algorithm (简单 贪 禁 搜 索 算法 )，243-244 
state-space formulation (状态 空间 形式 )，241-243 
stochastic (BAHL), 266-268 
systematic (RYE), 244-246 
Search operators 〈 搜 索 算 子 )，241-242 
Search tree 〈 搜 索 树 )，244-245，402 
Segmentation (区 隔 )，12，293 
Select clause (SELECT FAJ), 413 
Selection operation 《选择 运算 )，411 
Selectivity〈 选 择 能 力 )，273 
Sequence retrieval 〈 序 列 检 索 )，476-481 
Sequences, episodes from (序列 ，~ 中 的 片段 )，436-438 
Sequential data〈 序 列 数据 )，477 
Sequential position 〈 序 列 位 置 )，477 
Set operations (集合 运算 )，410 
Set of rules (规则 集 )，443 
SEVERITY property (SEVERITY 《严重 性 ) 属性 )，27 
Severity scale (严重 性 标 度 )，28 
Significance level (显著 水 平 )，105，125 


Similarity (相似 性 )，15，449，451，480 

Simple greedy search algorithm 《简单 贫 禁 搜索 )，243-244 
Simple regression models (简单 回归 模型 )，368 

Simplex algorithm (单纯 形 算法 )，258 

Simplex search method (单纯 形 搜索 方法 )，258 
Simpson's paradox 《辛普森 悖 论 )，100-101 

Simulated annealing 〈 模 拟 退 火 )，267-268 

Simultaneous test procedures ( 同步 检验 过 程 )，131 

Single link method 〈 单 链接 方法 ) ，312-313 

Single-link criterion 〈 单 链接 标准 )，298 

Single-scan algorithm 〈 单 扫描 算法 )，265 

Singular-value decomposition (SVD) (A (LH), 415, 466 
Skewness《〈 倾 斜 度 )，56-57 

SKICAT system (SKICAT 系统 )，13 

Sloan Digital Sky Survey (Sloan 天 体 数字 化 调查 )，19 
Snooping (RÆ), 22-23 

Spatial data 《空间 数据 )，44 

Special-purpose algorithms for disk access 〈 考 虑 磁盘 访问 的 有 
针对 性 算法 )，424 

Spline function 〈 样 条 函数 )，174 

Splines ( 样 条 )，174-175 

Splitting a node〔 分 裂 节 点 )，344-345 

SQL (结构 化 查询 语言 )，409，413-415 

Squared error (误差 平方 )，216 

SRM approach (SRM 方法 )，226 

SSE 〈 误 差 平 方 和 )，155-156，235 

Standard data (标准 数据 )，41 

Standard deviation (标准 差 )，56，60 

Standardization 《标准 化 )，38 

Star icons 〈 星 图 标 )，74 

Star plot〈 星 图 )，75 

State space representation 〈 状 态 空 间 表 示 )，241 

State variables〈 状 态 变量 )，200-201 

State-space formulation for search methods 〈 搜 索 方 法 的 状态 空 
间 表 示 )，241-243 

Stationarity CF8), 198-199 

Statistical inference (统计 推理 )，102-105 

Statistics 《统计 )，18-21，47，425-426 

Stepwise model (分 步 模 型 ;，130 

Stochastic approximation〔 随 机 近似 )，265 





Stochastic components of model structures (模型 结构 的 随机 分 
最 )，178-180 

Stochastic estimation 〈 随机 估计 )，123，265 

Stochastic search methods (随机 搜索 方法 )，266-268 
Strategic databases (策略 数据 库 )，417 

Stratified random sampling 《分 层 随 机 采样 )，135 

Strings (字符 串 )，43，206-208，420-421 

Structural risk minimization (SRM) approach (结构 风险 最 小 化 )，226 
Structured data models 《结构 化 数据 模型 )，197-203 
Structured Query Language (SQL) (结构 化 查询 语言 ;，409， 
413-415 

Structures, data mining (4444), BEA), 9-11, 142 
Student’ st- distributions 〈 学 生 氏 分 布 )，489 

Subsamples ( FHER), 360 

Subsets problem ( FHE), 241 

“Sufficient statistic” concept (“充分 统计 量 ” 概 念 )，112-113 
Sufficient statistics 《充分 统计 量 )，19-20，425-426 

Suffix tree data structure 《后 缀 树 数据 结构 )，421 

Sum of squared errors (SSE) (R22 FAA), 155-156, 235 
Sum of squared residuals (RAF AA), 376 

Summarizing data (总 结 数据 })，54-57 

Supervised classification 《有 指导 分 类 )，169，328-329 
Support 《支持 度 )，430 

Support vector machines (支持 向 量 机 )，357 

Surrogate document 《代理 文档 )，461 

Suspect data (TAERE), 50-51 

SVD (奇异 值 分 解 )，415，466 

Synonmy 《同义词 )，457 

Systematic sampling (系统 采样 )，133-134 

Systematic search methods ( 系统 搜索 方法 )，244-246 
Systematic variation 《系统 变化 )，179 


T 


T-dimensional “term space” (7-48 “WAE ”), 461 
Tables (#2), 41, 188, 408-412 

Tasks, data mining 〈 任 务 ， 数 据 挖掘 )，11-15，142 
Taylor series 《泰勒 级 数 )，227，257，369 
Temperature schedule CARRER), 267 

Ten-fold cross-validation 《十 折 交 叉 验 证 )，322 
Term ( 词 条 )，456 
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Term frequency (TF) 〈 词 条 频率 )，463 

Test set (检验 集合 )，360 

Text retrieval 〈 文 本 检索 ) 
background information (背景 信息 )，456-457 
classification of document and text (文档 和 文本 的 分 类 )， 
469-470 
latent semantic indexing (潜在 语义 索引 )，465-469 
matching queries and documents〔 匹配 查询 和 文档 )，461-465 
patterns 《模式 )，14 
representation of text “文本 的 表示 )，457-461 

Text retrieval Conferences (TREC) (文本 检索 会 议 )，456 

TF ( 词 条 频率 )，463 

Time series data 《时间 序列 数据 )，476-481 

Total sum of squares 《总 平方 和 )，376 

Training data《 训 练 数据 )，7。 参 见 Data set 

Training data points 《训练 数据 点 ;，346 

Transactions (事务 “交易 ))，405-406 

Transforming data〔 数 据 转 化 )，38-41，195-196， 

363 

TREC (文本 检索 大 会 )，456 

Tree models 〈 树 模型 )，174，343-347 

Tree-structured rule sets ( 树 结构 规则 集 )，443 

Trellis plotting〈 格 架 图 )，71，73-74 

Trimmed mean〈 修 整 均值 )，231-232 

True error rate (真实 误差 率 )，359 

True value concept《〈 真 实 值 概念 )，45 

Tuple, algorithm (H€. $i), 146, 151, 154-155 


U 


Unbiased estimation (无 偏 估计 ) 106, 227 
Uncertainty 〈 不 确定 性 ) 
background information〈 背 景 信息 ?，93 
dealing with《 处 理 )，94-97 





estimation and 《估计 和 )，105-124 
background information 《背景 信息 )，105-106 
Bayesian《 贝 叶 斯 )，93，116-124 
maximum likelihood and 《最 大 似 然 和 ~)，93，108-116 
properties of estimators and, desirable 〈 理 想 估 计量 的 属性 )， 
106-108 
stochastic《 随 机 )，123，265 


ee et 


360 # 7I 





hypothesis testing and〈 假 设 检验 和 ~ )，124-132 
background information (背景 信息 )，124 
classical (经 典 的 )，124-130 
in context (数据 挖掘 中 的 )，130-132 
multivariate random variables and〈 多 元 随机 变量 和 ~ )，97-102 
probability and (概率 和 ~ )，93-97 
random variables and《〈 随 机 变量 和 ~ )，97-102 
samples and (样本 和 ~)，102-105 
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